Scarica il testo completo

Transcript

Scarica il testo completo
Hoc erat in votis!
(Orazio, Satire)
UNIVERSITA’ DEGLI STUDI DI
NAPOLI
“FEDERICO II”
FACOLTA’ DI MEDICINA E CHIRURGIA
CORSO DI LAUREA IN
TECNICHE AUDIOPROTESICHE
Presidente: Prof. Elio Marciano
TESI DI LAUREA
PROTESI DIGITALI E SISTEMI DI RIDUZIONE DEL RUMORE
AMBIENTALE
Relatore:
Ch.mo Prof. Gennaro Auletta
Candidato:
Gabriele Delosa
Matr.585/26
Correlatore:
Dott. Pasquale Riccardi
Anno Accademico 2005 - 2006
2
INDICE
pag. 4
Introduzione
1. ELEMENTI DELLA PROTESI DIGITALE
1.1 Elementi della protesi acustica digitale
pag. 5
1.2 Funzionamento della protesi acustica
pag. 9
1.3 Campionamento
pag. 11
1.4 Teorema di Shannon - Nyquist
pag. 13
1.5 Sistemi di compressione
pag. 16
1.6 Vantaggi e svantaggi della protesi digitale
pag. 18
1.7 Principali regolazioni delle protesi
pag. 21
1.8 Amplificazione
pag. 22
1.9 Ausili extra protesici (Sistemi FM)
pag. 23
1.10 Il futuro: le protesi multi - microfono
pag. 26
2. MICROFONI DIREZIONALI
2.1 Introduzione microfoni
pag. 27
2.2 Tipologie di microfoni
pag. 28
2.3 Le caratteristiche fondamentali di un microfono
pag. 31
2.4 Diagramma polare di un microfono.
pag. 34
2.5 Stabilità della risposta direzionale
pag. 37
3
3. ANALISI GENERALE DELLE TECNICHE
DI NOISE SUPPRESSION
3.1 Tecniche e classificazione
pag. 38
3.2 Tecniche utilizzate per abbattere il rumore
pag. 41
3.3 Background storico
pag. 43
3.4 Il mitico beneficio dei nulli adattivi.
pag. 44
3.5 La sottrazione spettrale
pag. 48
3.6 L’algoritmo MMSE
pag. 50
4. DESCRIZIONE DELLA PARTE SPERIMENTALE E
DEL SISTEMA UTILIZZATO
4.1 Descrizione del sistema
pag. 52
4.2 Protesi acustiche utilizzate nei test
pag. 56
4.3 Fast Fourier Transform FFt
pag. 58
4.4 Sonogramma e spettrogramma
pag. 64
5 PARTE SPERIMENTALE
5.1 Descrizione dei test effettuati
pag. 67
Conclusioni
pag. 79
Bibliografia
pag. 80
Sitografia
pag. 82
4
INTRODUZIONE
Con l’avvento dell’elettronica digitale e la realizzazione di
microprocessori è stato possibile realizzare nuovi algoritmi di
processamento che hanno reso le
protesi acustiche più versatili. Nella
protesi acustica, i segnali vengono
tradotti in un codice binario. Ciò
consente di manipolare il segnale in
modo da adattarlo all’ipoacusico. La tecnologia digitale offre
maggior flessibilità di elaborazione di soluzioni personalizzate
per ogni singola perdita uditiva e consente di dotare la protesi
acustica di funzionalità supplementari (algoritmi) che ne
incrementano il valore in un maggior numero di situazioni di
ascolto. Ad esempio: casa, lavoro, teatro etc. Con la tecnologia
analogica è possibile effettuare modifiche puntuali sul segnale
acquisito e ci si limita a definire l’amplificazione o variare
piccoli parametri utilizzando un cacciavite rendendo cosi le
modifiche poco controllabili. Con il digitale dunque si è
inaugurata una nuova filosofia di protesi: prima l'utente era
costretto ad adattarsi all'ausilio acustico, infatti ancora oggi le
migliori
protesi
tradizionali,
consentono
un
margine
di
regolazione limitato. Attualmente con le protesi digitali
(computer acustici), è la protesi che deve essere adattata alle
esigenze dell'utente.
5
CAPITOLO I
ELEMENTI DELLA PROTESI DIGITALE
1.1 Elementi primari della protesi acustica digitale
ADC
DSP
DAC
Fig. n. 1 - Sono rappresentati gli elementi primari di una protesi digitale
Lo schema a blocchi in figura 1 mostra gli elementi primari
della protesi acustica digitale. Una protesi acustica digitale tipica
consiste in uno schema dotato di tre semiconduttori con una
memoria: EEPROM non volatile, un dispositivo digitale e un
dispositivo analogico.
Il dispositivo analogico include il convertitore analogico-digitale
ADC, il preamplificatore del microfono e lo stabilizzatore di
tensione.
Il convertitore ADC ha tipicamente una gamma di frequenza di
20 Khz con 16 bit di risoluzione.
Il dispositivo digitale è il DSP. Dal DSP il segnale è in digitale
ed usa impulsi a larghezza modulata.
6
Fig. n. 2 - E’ rappresentato lo schema a blocchi di una protesi digitale con i suoi
componenti
All’interno dello schema a blocchi, come raffigurato nella figura
2, troviamo l’ADC (Analogic Digital Converter) che converte il
segnale analogico in segnale digitale, il Clock (Ritmo) che ha il
compito di sincronizzare il funzionamento dei dispositivi
elettronici digitali e viene generato da un oscillatore al quarzo.
Per aumentare le prestazioni di una CPU quindi è possibile agire
sulla massima frequenza di Clock.
Il cuore di una protesi acustica è il Digital Signal Processor
(DSP -processore di segnale digitale) un insieme di tecnologie e
algoritmi che permettono di analizzare un segnale analogico
dopo che è stato campionato. E’ un particolare tipo di
microprocessore
ottimizzato
per
eseguire,
in
maniera
estremamente efficiente e precisa, sequenze di istruzioni molto
ricorrenti nel condizionamento di segnali digitalizzati (come ad
esempio somme, moltiplicazioni e traslazioni). Nel digital signal
7
processing, il segnale è elaborato a blocchi (numero di bit da
elaborare) ognuno dei quali passa attraverso un numero di stadi
di elaborazione. Questi passi vengono ripetuti per tutti i blocchi,
nello stesso ordine ed in ben determinate finestre temporali.
Dopo questo passaggio il segnale viene poi riconvertito in
analogico.
Tutte le informazioni vengono raccolte all’interno delle Eeprom
(Electrically Erasable and Programmable ROM), una memoria
ROM che a differenza di quest’ultima è cancellabile e
riscrivibile, mediante opportune tensioni e correnti applicate ai
MOSFET (i componenti base di una ROM) che la compongono.
Il Pre Class-D amplifier è un amplificatore specificamente
mirato che ha lo scopo di effettuare una riproduzione sonora e
musicale di alta qualità.
Ultimo componente presente in una protesi è la battery. Le
batterie utilizzate in ambito audioprotesico sono pile zinco – aria
aventi un’oscillazione di 1.3 – 1.4 V. La caratteristica peculiare
però riveste non il voltaggio, bensì l’amperaggio vale a dire la
quantità di scarica in unità di tempo (A=1/T). Maggiori sono le
dimensioni della pila, maggiore è la capacità di scarica cioè la
disponibilità di energia in unità di tempo. Le pile in commercio,
non specifiche per l’utilizzo in ambito audioprotesico, hanno
un’affidabilità soltanto del 70 % rispetto alle batterie progettate
dalle case produttrici di protesi acustiche.
8
·
1.4 V
Nella Figura è rappresentata la
fase di over-changing: la
batteria, estratta la linguetta,
subisce
una
fase
di
sovraccarica
che
dura
all’incirca cinque minuti, nei
quali il rendimento della
protesi è falsato
Over - changing
T
La figura n. 3 mostra la fase di over-changing delle batterie utilizzate in ambito
audioprotesico
9
1.2 Funzionamento di protesi acustica
Fig. n. 4 – Immagine riferita ad una protesi acustica endoauricolare.
Il microfono raccoglie i segnali acustici (onde sonore) e li
trasforma in segnali elettrici. Le onde sonore colpiscono la
membrana
microfonica,
innescandone
la
vibrazione;
la
membrana consiste in un foglio molto sottile di materiale
leggero; la qualità del microfono dipende proprio dalla
membrana e dalla facilità con cui vibra. Nelle protesi acustiche
vengono montati microfoni electret; il loro utilizzo ha migliorato
la qualità di riproduzione del suono ed ha permesso di aumentare
la banda di frequenza. In alcune protesi retroauricolari, si
montano microfoni "direzionali" che presentano due aperture per
l'ingresso dei suoni, una anteriore e una posteriore. L'apertura
frontale del microfono, migliora l'ascolto in ambienti con
rapporto segnale-rumore sfavorevole e riproduce in parte la
10
direzionalità dell'orecchio umano, mentre la risposta e la
sensibilità rimangono inalterate; l’utilizzo
nel microfono
posteriore rende la protesi più sensibile al vento.
Il ricevitore riceve il segnale elettronico amplificato e lo
trasforma aumentandolo in un segnale sonoro utilizzabile
dall'orecchio umano. Il ricevitore, tra i componenti che
costituiscono la protesi acustica è senza dubbio il più delicato ed
è responsabile di parecchi problemi tipici della protesi. Simile ad
un altoparlante in miniatura, esso è costituito da una bobina, da
un magnete permanente e da una membrana sottile e cedevole,
paragonabile alla membrana microfonica e rigidamente collegata
alla bobina. Quando quest’ultima è percorsa dal segnale elettrico
sonoro vibra e con essa anche la membrana generando un segnale
sonoro udibile. Le caratteristiche acustiche del ricevitore variano
con la lunghezza ed il diametro del tubicino che trasferisce i
suoni alla chiocciola auricolare. Intervenendo sulla "curvetta" è
possibile adattare la risposta in frequenza di una protesi alle
esigenze della persona.
Quando arriva il suono, l’elettromagnete genererà un campo
positivo o negativo che attirerà o respingerà l’elemento metallico
consentendo l’oscillazione della membrana. Tale movimento
tradurrà il segnale creando onde di compressione e rarefazione
facendo si che il segnale si trasformi da elettrico in acustico.
11
1.3
Campionamento
Il processo che consente di passare da una grandezza analogica
ad una numerica (discreta) si chiama “campionamento”. Con il
campionamento si traduce il segnale analogico – digitale e
consente nel quantizzare le grandezze analogiche.
Il numero di livelli e la risoluzione della conversazione analogico
– digitale sono legati al numero di bit secondo la tabella che
segue.
N° BIT
N° Livelli
1
2
3
4
5
6
7
8
9
10
11
12
13
14
2
4
8
16
32
64
128
256
512
1024
2048
4096
8192
16384
Il campionamento quantizza il segnale su un certo numero di
livelli.
L’errore
massimo
che
può
compiere
dipende
dall’ampiezza di intervallo di quantizzazione. L’unisono dei
livelli è dato dal numero di bit.
Il livello di quantizzazione è scelto in modo da avere un errore di
quantizzazione inferiore a quello generato da altre fonti di errore
12
già presenti nel segnale, ad esempio negli apparecchi acustici il
rumore introdotto dal microfono.
La frequenza minima di campionamento tale da rappresentare il
segnale analogico è detta "frequenza di Nyquist" e corrisponde
alla metà della frequenza di campionamento (fc + 1). La
risoluzione del campionamento è definita in questo modo:
N = Numero dei bit
L’operazione di campionamento è attuata da un dispositivo
elettronico detto convertitore A/D. Cosi come occorre conoscere
quanti campioni al secondo siano necessari per descrivere il
segnale è altresì necessario conoscere su quanti livelli assegnare
valori ai campioni.
Più livelli avremo a disposizione da attribuire all’intensità del
segnale, più precisa sarà la sua rappresentazione e migliore la sua
risoluzione.
Fig. n. 5 - Processo di campionamento di una forma d'onda sinusoidale
13
1.4
Teorema di Shannon - Nyquist
"La frequenza di campionamento deve essere maggiore o
uguale al doppio +1 della frequenza massima contenuta nel
segnale". Se non si rispetta questo teorema le componenti di
suono a
frequenza più elevate saranno sottocampionate
determinando una ricostruzione errata del segnale (fenomeno
denominato aliasing). Per ovviare a ciò, nella protesi è presente
un filtro Anti – Aliasing che limita la banda del segnale
analogico ad un valore B in modo da evitare l'aliasing, cioè la
sovrapposizione del contenuto informativo per la frequenza di
campionamento fissata.
Fig. n. 6 - Segnale sottocampionato. Esempio di aliasing. Le sinusoidi a 0.5 KHz
(nera) e a 3.5 kHz (colorata) hanno la stessa ampiezza se queste forme d’onda
vengono campionate ogni 0.25 ms (punti neri corrispondono a una frequenza di
campionamento di 4kHz). Campionando invece ogni 0.125 ms (punti colorati
corrispondenti a frequenza di campionamento di 8 kHz) si ottengono valori diversi
per le ampiezze dei due segnali.
14
Aumentando la frequenza di campionamento, maggiore sarà il
numero di valori nell’unità di tempo e quindi minore sarà l’errore
che si commette, per questo motivo in pochi anni le frequenze di
campionamento sono aumentate notevolmente:
Dispositivo
Frequenza di campionamento ( Hz )
CD – Compact Disc
44100
DAT – Digital Audio Tape
48000
DVD – Digital Video Disc
96000
DVD Audio
192000
L’utilità di frequenze di campionamento così elevate (192 KHz,
96 KHz) è discutibile almeno per quanto riguarda l'utilizzo
acustico, perché il nostro sistema uditivo non è così sensibile.
Un sistema di campionamento classico è cosi rappresentabile:
Fig. n. 7 - Campionatore
15
Il
segnale
analogico
è
inviato
ad
un
convertitore
analogico/digitale che campiona il segnale e lo trasforma in
parole di n bit. Il campionamento attraverso un A/D provoca
un’ulteriore perdita d’informazione, infatti, sul segnale si opera
un’altra discretizzazione oltre a quella nel tempo, vale a dire
quella d'ampiezza. Per codificare gli infiniti valori possibili di un
segnale analogico bisognerebbe avere a disposizione un numero
infinito di bit. Questo, ovviamente, non è possibile e quindi si
limita la lunghezza delle parole di bit e di conseguenza il numero
dei livelli d’ampiezza assumibili dai campioni. Una caratteristica
che deve essere garantita nel campionamento, è un alto rapporto
segnale – rumore (S/N), che è controllabile attraverso il numero
di bit utilizzati.
16
1.5
Sistemi di compressione
I sistemi di compressione utilizzati nelle protesi acustiche
servono per limitare l’uscita di un segnale acustico. Nelle protesi
digitali
solitamente
vengono
utilizzato
o
sistemi
AGC
(Automatic Gain Control) oppure sistemi combinati (Peak
clipping e Agc) denominati Front clipping.
Il sistema AGC (automatic gain control) è un sistema che
stabilisce il limite superiore e quello inferiore, cioè racchiude una
banda d’intensità d’oscillazione nella quale il segnale deve
variare. Il sistema è un amplificatore retroazionato.
Esempio:
T1
T2
Limite max
Se il segnale è inferiore al limite minimo, il segnale non è
elaborato. Mentre se rientra nel range d’intensità è amplificato
seguendo un proprio algoritmo.
17
Nel momento in cui supera il limite massimo il sistema lo
identifica come segnale troppo forte e ne diminuisce la capacità
d’amplificazione comprimendolo nel range stabilito.
Con il Peak clipping, sistema di compressione immediato (non
ha tempi d’attacco e di rilascio) che taglia il segnale senza
comprimerlo, il segnale elettrico viene tagliato facendo rimanere
invariata l’amplificazione.
Con l’AGC si agisce sull’amplificazione e non sul segnale;
pertanto il segnale viene compresso in modo tale da non superare
mai l’uscita massima.
Attualmente sulle protesi è molto difficile trovare applicato solo
l’AGC, in genere esiste un sistema misto definito “Front
clipping”, che in realtà mette insieme AGC + P.C.
Il sistema funziona in serie e viene prima l’AGC e dopo il P.C.
quindi il segnale passa prima in uno e dopo nell’altro.
Tutto questo per eliminare il problema del tempo d’attacco.
Un tempo d’attacco troppo breve fa si che qualsiasi segnale
innesca il sistema, mentre un tempo d’attacco troppo lungo
determina un superamento del suono maggiore rispetto al limite,
e quando si attiva il sistema il paziente avverte il click.
Come funziona il FRONT CLIPPING:
Per ovviare al limite dell’ AGC, il cui tempo d’attacco ( ~ 5 - 50
ms) potrebbe essere tale da far passare un suono troppo forte
provocando un fastidio (dolore) al soggetto, si utilizza un P.C. in
ingresso con cui il sistema limita superiormente il segnale sonoro
ovviando al problema descritto.
18
1.6
Vantaggi e svantaggi delle protesi digitali:
Vantaggi:
· Personalizzazione delle protesi acustiche
· Rendere più confortevole l’utilizzo protesico nelle diverse
condizioni acustiche e ambientali e adattare nel migliore dei
modi una configurazione audiometria inusuale.
· Avere una flessibilità sufficiente per affinare la regolazione
quando si ottengono informazioni audiometriche maggiori.
· Diminuire il problema del feedback acustico
· Maggiore affidabilità e robustezza
· Maggiore dinamica dei suoni gestibili senza distorsione
· Minore generazione del rumore interno
· Elaborazione multi – banda di diversa natura, applicata alle
varie frequenze contenute nel segnale d’ingresso.
19
Svantaggi
· Scarso rendimento delle protesi digitali nella protesizzazione
di perdite profonde a causa delle limitate potenze e degli alti
consumi che non riescono ad eguagliare qualitativamente le
classiche protesi analogiche.
· Dimensioni ridotte del ricevitore, la tensione della membrana
restringe il campo d’azione e determina una banda passante
limitata
· Difficile programmazione
· Alte distorsioni in particolari e ristrette situazioni (es. nelle
perdite profonde).
Gli
apparecchi
digitali offrono
il
controllo
permanente
automatico e adattativo dell’effetto Larssen (suono emesso dal
ricevitore) che consente di ridurre o eliminare uno dei più
fastidiosi inconvenienti degli apparecchi di potenza e di
migliorare le possibilità di applicazione. Inoltre il controllo del
fischio consente di utilizzare inserti auricolari aperti o ventilati
aumentando il confort di uso specialmente di chi inizia ad
utilizzare gli apparecchi acustici.
La presenza di un dispositivo digitale in grado di individuare la
presenza della voce e di adattare di conseguenza le modalità di
amplificazione dell’apparecchio. Consente di migliorare la
comprensione
della
voce
nel
rumore
e
di ridurre
la
sovrastimolazione acustica in assenza di parlato. Questa ultima
possibilità
è
particolarmente
20
importante
per
ridurre
l’affaticamento
acustico
nei
bambini
che
notoriamente
frequentano ambienti molto rumorosi.
Un apparecchio digitale può e deve essere regolato non solo sulla
base dei referti audiometrici classici (audiometria, vocale,
impedenzometria, ecc.) ma anche sulle capacità di elaborazione
dei suoni del paziente. Per fare un esempio un professionista, con
vita sociale e lavorativa dinamica e basata sui contatti
interpersonali avrà una capacità e una esigenza di elaborazione
dei suoni diversa da un’altra persona che, a parità di perdita
uditiva, svolge un lavoro ripetitivo con pochi contatti sociali. E’
proprio dall’analisi dello stile di vita e dall’età oltre che dai dati
audiometrici tradizionali, che il software dei digitali super,
propone un tipo di regolazione che potrà essere di amplificazione
lineare oppure non lineare con caratteristiche di adattamento
veloce o lento. Questo tipo di adattamento basato sulle esigenze
di vita e sulle “prestazioni”di ascolto del paziente rappresenta la
nuova frontiera della terapia audioprotesica.
21
1.7
Principali regolazioni delle protesi
Una protesi acustica ha essenzialmente quattro tipi di
controllo:
Ø il controllo del volume, modifica l’intensità in uscita e
condiziona i livelli soggettivi della sensazione soggettiva
di intensità (loudness);
Ø il controllo di tono, agisce sul profilo della risposta in
frequenza e condiziona la risposta soggettiva di altezza
tonale (pitch);
Ø il controllo di uscita limita l’intensità massima in uscita,
dovrebbe contribuire a un ascolto confortevole anche in
presenza di elevate intensità all’ingresso della protesi;
Ø il controllo dei tempi di attacco e di rilascio del sistema di
limitazione di uscita.
22
1.8
Amplificazione
L’amplificazione fornita dalla protesi acustica può essere
lineare o non lineare.
Lineare: un’amplificazione lineare significa un guadagno
costante, per qualsiasi intensità all’ingresso, almeno finché viene
raggiunto il limite di saturazione dell’amplificatore.
Non lineare: un’amplificazione non-lineare fornisce guadagni
differenti a seconda di differenti livelli di intensità all’ingresso; il
guadagno è più elevato per intensità di ingresso basse, mentre il
guadagno e più ridotto per intensità intermedie di ingresso.
23
1.9
Ausili extra protesici
Trasmettitori in radio frequenza che migliorano
il rapporto Segnale/Rumore e l’intelligibilità del parlato
Le scuole sono sempre un luogo molto movimentato e
rumoroso, in questo contesto il bambino portatore di apparecchio
acustico può rimanere disturbato e incapace di distinguere
correttamente le voci.
Per ovviare a questo problema dal 1997 è disponibile il
Microlink.
Fig. n. 8 - Sistema a radiofrequenze: il Microlink
24
che tramite un sistema di trasmissione FM
senza fili collega le
protesi del bambino a
un microfono indossato
dalla
maestra.
Ciò
consente di sopprimere il rumore di fondo
e di migliorare il rapporto segnale/rumore sino a 20 dB.
L’uso del Microlink è assolutamente consigliabile per tutti i
bambini e ragazzi con sordità gravi e profonde. Infatti, anche con
un apparecchio acustico perfettamente adattato, può non esserci
la garanzia assoluta di una buona comprensione in tutte le
situazioni. La distanza da chi parla e rumori di sottofondo
possono rendere molto difficile sentire il segnale che si desidera.
Microfoni direzionali e sistemi FM, sono nuove soluzioni ad alta
tecnologia, utili a superare questo tipo di impedimenti. Un
sistema FM (onde radio a modulazione frequenza), consiste in
25
una trasmittente dotata di microfono, indossata da chi parla, e di
un ricevitore collegato all'apparecchio acustico dell'utente. La
voce di chi parla viene trasmessa sulle onde FM direttamente al
ricevitore, attaccato all'apparecchio acustico. I sistemi FM sono
largamente utilizzati nei programmi scolastici per bambini con
perdite uditive, facilitano così la comprensione di ciò che la
maestra dice.
26
1.10 Il futuro: le protesi multi – microfono
Mantengono le caratteristiche delle protesi digitali.
Incrementano il rapporto tra il segnale utile ed il rumore (SNR)
grazie alla separazione spaziale delle sorgenti.
L’incremento in SNR produce una migliore intelligibilità del
parlato. Le ricerche che diverse case produttrici stanno
conducendo potrebbero portare alla creazione di protesi digitali
multi – microfono in grado di offrire alta direzionalità grazie a
schiera di microfoni e raffinate tecniche di elaborazioni dei
segnali.
27
CAPITOLO II
MICROFONI DIREZIONALI
Un elemento cruciale per le protesi acustiche
2.1
Introduzione Microfoni
La scelta del microfono giusto può influire in modo
determinante sulla comprensione del parlato in presenza di
rumore e quindi sulla capacità uditiva.
Un microfono direzionale, attualmente, è il solo metodo
dimostrabile ed attendibile per riuscire a rendere migliore il
rapporto segnale – rumore in un apparecchio acustico e dunque
riuscire ad incrementare la capacità di comprendere il parlato in
situazioni d’ascolto rumorose per chi indossa il dispositivo. I
microfoni sono trasduttori in grado di trasformare energia
acustica in energia elettrica, in particolare le variazioni della
pressione atmosferica vengono convertite in variazioni di
tensione e dunque in corrente.
Tuttavia, pur raccogliendo un generale consenso l’affermazione
precedente, non c’è mai stato un completo accordo riguardo il
miglior metodo per la realizzazione stessa della direzionalità in
una protesi acustica, né riguardo il diagramma polare ottimale
per determinare il beneficio massimo nella processazione
digitale.
28
2.2
Tipologie di microfoni
Le tecnologie con cui vengono realizzati i microfoni sono
diverse e questo ci permette di avere a disposizione una vasta
gamma di soluzioni a seconda del contesto in cui ci troviamo ad
operare. Vi sono microfoni più o meno sensibili, con diverse
direzionalità, senza poi contare che ogni microfono ha un suo
proprio timbro personale che lo caratterizza e che lo rende a suo
modo unico. Nella pratica comune vengono impiegati una serie
di microfoni standard che costituiscono una sorta di riferimento
per gli operatori; l'esperienza consente di allargare i propri
orizzonti e trovare il microfono preferito per
ogni contesto
lavorativo.
I microfoni si possono dividere in due grandi classi: microfoni
dinamici e microfoni a condensatore.
Microfoni dinamici: Sono più resistenti ed economici, reggono
maggiormente gli alti volumi, ma hanno una maggiore inerzia al
movimento, dovuta a motivi costruttivi (la pesantezza di
membrana e avvolgimento), quindi non rendono i transienti come
i condensatori, e spesso hanno una risposta in frequenza limitata.
I microfoni dinamici forniscono una buona qualità, sebbene
inferiore a quelli a condensatore, non necessitano di alcuna
alimentazione, sono robusti e in grado di sopportare notevoli
sovraccarichi acustici.
29
Microfoni a condensatore (electret) : Questo tipo di microfono
(detto anche elettrostatico) possiede al suo interno un
condensatore. Una delle due piastre del condensatore è il
diaframma del microfono e vibra in accordo con l'onda acustica
da cui viene investito. La vibrazione della piastra produce la
variazione della distanza tra le due piastre variando così il valore
della capacità. Questo implica una variazione della tensione ai
capi delle piastre con un conseguente passaggio di corrente. Il
diaframma viene realizzato in mylar (un tipo particolare di
plastica) rivestito di uno strato d'oro (eccellente conduttore). Si
rende necessaria l'applicazione di un voltaggio per polarizzare
inizialmente il condensatore. Questo prende il nome di phantom
power e viene fornito generalmente dal mixer al quale il
microfono viene collegato.
Fig. n. 9 - Schema del microfono a condensatore (electret)
30
La tensione phantom ha il duplice scopo di polarizzare il
condensatore all'interno del microfono e di amplificare la
corrente proveniente dallo stesso.
I microfoni a condensatore sono molto più accurati dei microfoni
elettrodinamici in quanto il diaframma può essere realizzato con
materiali molto leggeri e di dimensioni ridotte e dunque può
risultare molto sensibile anche alle frequenze più alte.
Di seguito sono elencate le caratteristiche principali dei
microfoni a condensatore:
Ø Diaframma molto sottile che permette una buona
riproduzione anche
delle frequenze più alte.
Ø Si può danneggiare se sottoposto a pressioni sonore molto
elevate.
Ø Molto delicato
31
2.3
Caratteristiche fondamentali di un microfono
Le caratteristiche fondamentali di un microfono sono:
Ø Il principio di traduzione, a condensatore, dinamico, a
electret, piezoelettrici
Ø La risposta in frequenza, che dovrebbe essere il più
possibile regolare (piatta).
Ø La sensibilità, cioè il rapporto fra ampiezza del segnale
elettrico uscente dal microfono e ampiezza del segnale acustico,
che è un'espressione del rendimento del microfono. Viene di
solito espressa in mV/µbar (milliVolt per microbar). 1 µbar
corrisponde a 74 dB. Valori usuali sono di 1 mV/µbar, dal che si
può dedurre che il segnale uscente da un microfono è molto
basso, circa 300 volte minore del segnale uscente dalle altre
apparecchiature dello studio; esso va perciò preamplificato per
portarlo allo stesso livello degli altri segnali. Gli ingressi per
microfono presenti nelle apparecchiature sono perciò diversi
dagli ingressi per segnali ad alto livello, detti ingressi di linea
Ø La massima pressione acustica o pressione acustica limite,
espressa in dB specialmente critica per la registrazione di
strumenti in grado di produrre suoni di grande intensità, come gli
strumenti a percussione
32
Nella tabella seguente si riassumono le caratteristiche dei
principali tipi di microfoni:
Tipo
Tensione
di uscita Impedenza Qualità
Dinamico
Da 1 a 10
mV
Alta o bassa
A
condensatore
1 mV
Bassa
Da cattiva
a molto
buona
Ottima
A elettrete
1 mV
Bassa
Discreta
Piezoelettrico
100 mV
Alta
Cattiva
Note
Robusti
Delicati,
necessitano di
alimentazione
esterna
Necessitano di
batterie
Fig. n. 10 - Nella tabella si riassumono le caratteristiche dei microfoni
La direzionalità esprime la capacità del microfono di captare piú
o meno bene i segnali in base alla direzione di provenienza. In
figura sono indicate le caratteristiche direzionali di microfoni
omnidirezionali (o panoramici, che hanno una risposta uguale
per tutti gli ingressi indipendentemente dalla direzione da cui
provengono),
unidirezionali
(a
cardioide,
in
cui
viene
amplificato il segnale proveniente da una sola direzione),
bidirezionali (a otto) e superdirezionali (a clava). La direzione
frontale è indicata con l'angolo di 0°, quella posteriore con
l'angolo di 180°. Osservando il diagramma di un microfono
omnidirezionale, si nota che la sensibilità è la medesima per i
suoni che provengono da qualsiasi direzione. Per quanto
concerne il microfono a cardioide (così chiamato per la sua
caratteristica direzionale assimilabile alla forma di un cuore) e
limitatamente ai suoni provenienti dalla direzione frontale (0°)
33
la sensibilità è quella nominale di 0 dB; via via che la sorgente
sonora si sposta, la sensibilità diminuisce, per ridursi di 24 dB
quando la direzione di provenienza è posta dietro il microfono
(180°). Grande importanza ha poi, nei microfoni direzionali, la
variazione della caratteristica in funzione della frequenza; la
direzionalità è infatti più accentuata per le frequenze alte, mentre
alle frequenze basse il microfono si comporta praticamente come
panoramico. Questo fenomeno, insito nel principio di trasduzione
dei microfono, può dare luogo, se trascurato, a difetti nella
ripresa del suono, ma può anche suggerire particolari tecniche di
ripresa microfonica.
34
2.4
Diagramma polare di un microfono
I diversi criteri di costruzione dei microfoni possono essere
impiegati per ottenere caratteristiche direzionali diverse. Sono
infatti state messe a punto una serie di metodologie di
costruzione che permettono di focalizzare la sensibilità di un
microfono verso una o più direzioni specifiche e questo apre
l'orizzonte a tutta una serie di tecniche di microfonaggio che
vedremo successivamente. L'andamento della sensibilità a
seconda della direzione di provenienza del suono viene descritto
da un grafico denominato diagramma polare.
Nella figura seguente vengono riportati i diagrammi polari più
comuni con la loro denominazione, il centro rappresenta il
microfono con il suo diaframma mentre attorno a questo viene
riportato il valore della sensibilità al variare della direzione. La
direzione viene misurata in gradi. 0 gradi è il punto esattamente
di fronte al diaframma mentre 180 gradi indica la posizione
opposta, cioè dietro al microfono. Ogni corona concentrica, a
partire dalla più esterna, indica una perdita di 3 dB (per esempio,
nella figura b - diagramma cadioide - si può notare una perdita di
3 dB per suoni provenienti da una direzione con un angolo di 45
gradi rispetto alla direzione centrale): diamo di seguito una breve
descrizione per ogni diagramma:
Circolare: il
microfono
è egualmente sensibile in tutte le
direzioni dello spazio. Un suono viene riprodotto con la stessa
accuratezza da qualsiasi direzione provenga (almeno in linea di
35
principio) in quanto un diagramma perfettamente
circolare
risulta impossibile da ottenere a causa di vincoli fisici.
Cardioide: il nome deriva dalla linea a forma di cuore del
diagramma. In questo caso i suoni provenienti da dietro il
microfono non vengono captati dallo stesso o meglio, come
vedremo, vengono drasticamente attenuati.
Super cardioide: come il diagramma cardioide
caratteristiche
di direzionalità
ma
con
accentuate. Tuttavia
per
stringere il diagramma anteriore bisogna accettare l'insorgenza
di un piccolo lobo posteriore. Ciò implica un leggero aumento
della sensibilità ai suoni provenienti da dietro al microfono.
Iper cardioide: come il super cardioide ma con caratteristiche di
direzionalità ancora accentuate. Da notare la presenza ancora
maggiore del diagramma cardioide posteriore.
36
Nella figura seguente vengono riportati i diagrammi polari
precedenti in una visione tridimensionale:
Fig. n. 11 - Sono riportati i diagrammi polari in visione tridimensionale
37
2.5
Stabilità della risposta direzionale
I microfoni direzionali devono essere precisamente calibrati in
intensità e fase. L’accuratezza al momento della realizzazione e il
mantenimento nel tempo della precisione richiesta sono
presupposti necessari per la reale efficacia del sistema
direzionale. Quindi massima cura all’indice di Direttività (DI) in
fase di realizzazione ed al deterioramento causato dalla
temperatura
e
l’umidità
che
possono
compromettere l’efficacia della direzionalità.
38
significativamente
CAPITOLO III
ANALISI GENERALE DELLE TECNICHE
DI NOISE SUPPRESSION
3.1
Tecniche e classificazione
Oggi è universalmente riconosciuto che le strategie di
trattamento dei segnali dovrebbero variare a seconda dei diversi
ambienti sonori. I presupposti per una ottimale comunicazione in
ambienti silenziosi sono udibilità e buona qualità del suono;
quando nei canali di comunicazione interviene il rumore, sia esso
di fondo o impulsivo, l’obiettivo principale diventa migliorare il
rapporto
segnale/rumore
per
comprensione del parlato.
39
consentire
una
migliore
Il rumore rappresenta qualcosa che dobbiamo assolutamente
eliminare o per lo meno ridurre. Il quadro, però, non è così
negativo se pensiamo che il rumore, benché presente, spesso ha
un’ampiezza limitata che viene facilmente sovrastata dal segnale
audio. Per ogni tipologia di rumore nel corso degli anni è stata
comunque trovata una contromisura
più o meno efficace.
I
sistemi
vengono
nessun
di
Noise
definiti
Suppression
statici
parametro
quando
relativo
alla
compressione varia. Al contrario, sono
detti dinamici quando l’algoritmo di
riduzione si adatta continuamente al
segnale
d’ingresso.
Una
seconda
classificazione identifica col termine
4single - ended quei sistemi di soppressione applicati solo in un
punto della catena audio (come ad esempio, i filtri). Vengono
indicati, invece, col termine double - ended quei sistemi che
prevedono un doppio intervento, consistente generalmente nelle
due fasi di codifica e decodifica (come avviene nel sistema
Dolby). II sistema che andremo ad illustrare e proporre nei
capitoli che seguono, date la variabilità del segnale d’ingresso, la
molteplice natura e le differenti caratteristiche del segnale
interferente, dovrà possedere senza dubbio buone qualità
dinamiche di adattamento. Entrando più nello specifico, esso
deve
possedere
tre
requisiti
40
fondamentali,
i
quali
ci
permetteranno una corretta soluzione del problema relativo alla
cancellazione, e cioè:
Ø Deve poter permettere l’acquisizione dei segnali audio su cui
si vuole lavorare (tramite operazioni di campionamento e
quantizzazione).
Ø Deve poter offrire la possibilità di effettuare una misurazione
qualitativa dei campioni.
Ø Deve offrire ampie garanzie riguardo alla caratterizzazione dei
disturbi presenti.
41
3.2
Tecniche utilizzate per abbattere il rumore
La caratterizzazione del miglioramento qualitativo di un
segnale, in genere, viene effettuata sia tramite una sua analisi
visiva, nel dominio temporale e nel dominio delle frequenze
(spettro), che tramite la variazione di alcuni parametri; tra questi
ultimi, ricordiamo il rapporto segnale/rumore, che, tramite
l’utilizzo
di
moderne
tecniche,
può
essere
aumentato
significativamente rispetto ai risultati ottenuti in seguito
all’applicazione standard della tecnica di sottrazione spettrale.
Si noti, tuttavia, che l'incremento incondizionato di tale
parametro non sempre corrisponde ad un aumento della qualità:
infatti, effettuando un procedimento di denoising molto
aggressivo, si otterrebbe facilmente un notevole incremento del
SNR, rischiando però la degenerazione dei segnali a basso livello
e vanificando il procedimento effettuato.
Esistono molti modi di classificare gli algoritmi di soppressione
del rumore. Ad esempio, possiamo distinguere tra le tipologie
sviluppate per mezzo di un sistema di rivelazione multisensore o
a singolo sensore. Inoltre, possono venir prese in considerazione
le proprietà spaziali sia delle sorgenti di segnale che di rumore,
come nel caso di adozione di un sistema microfonico atto ad
enfatizzare il suono proveniente da una particolare direzione.
Un ulteriore esempio è dato dalla cancellazione adattiva del
rumore (ANC), approccio che necessita di due canali audio: il
primario, in cui transitano il segnale utile ed il disturbo insieme,
42
ed il secondario, in cui è portato solo il rumore. Il rumore nel
secondario deve presentare la proprietà di correlazione col
rumore nel primario.
Altre metodologie di soppressione, invece, tentano di sfruttare il
meccanismo stesso coinvolto nella produzione del segnale utile o
del rumore: un tipico caso è quello delle tecniche di
riconoscimento vocale, in cui ciò è tipicamente realizzato
attraverso un’operazione di predizione lineare del “parlato”;
viceversa, nelle tecniche di riconoscimento sonoro, poiché il
segnale è troppo generico per essere modellato, si agisce sul
rumore. I sistemi di soppressione del rumore possono presentarsi
come moduli separati rispetto ai sistemi che hanno come ingresso
il segnale vocale oppure sono integrati in questi ultimi. Queste
tipologie spesso presentano i difetti o di non proporre un
sufficiente rapporto di soppressione (bassa quantità di rumore
soppresso) oppure non prendono in considerazione criteri
soggettivi. La performance del sistema di soppressione del
rumore viene a dipendere, così, fortemente dall’accuratezza e
robustezza del sistema.
43
3.3
Background storico
Per quanto riguarda il concetto di denoising, siamo a
conoscenza di svariati approcci, dato che la letteratura
specializzata ci mette a disposizione una grande varietà di
tecniche ed algoritmi dedicati alla soppressione del rumore: Lim
e Oppenheim nella loro opera ne offrono un’ampia e completa
elencazione e trattazione. I software commerciali di riduzione del
rumore adattano tecniche in frequenza, sviluppate negli anni ‘60
e ’70 per l’elaborazione e la trasmissione del parlato. Nel
complesso, si può affermare che essi possono essere classificati
come sistemi di soppressione basati sulla teoria del filtro di
Wiener e come sistemi di compensazione che sfruttano algoritmi
di adattamento. Nel primo caso, per la realizzazione del sistema
è utilizzato un solo ingresso contenente il segnale vocale (parte
utile) + il rumore (da eliminare), mentre per l’implementazione
del secondo sono richiesti uno o più canali di riferimento con
sorgenti di rumore correlate e con assenza di componenti “utili”.
Volendo dare una classificazione dei metodi esistenti in base
all’analisi sul segnale prelevato, li distinguiamo in:
Ø
Metodi con stime di potenza.
Ø
Metodi con stime di Wiener.
Ø
Metodi con stime di grandezza
Ø
Metodi con stime di minimo errore quadratico medio
44
3.4
Il Mitico Beneficio dei Nulli Adattivi
Da ormai parecchi anni alcuni produttori di apparecchi acustici
hanno preso la decisione di trarre vantaggio dalla possibilità di
controllare il ritardo interno ai microfoni e di rappresentare il
diagramma polare risultante per i sistemi direzionali. Sostengono
che lo spostamento del nullo del diagramma polare verso la
sorgente rumorosa (o jammer), dovrebbe massimizzare la
riduzione dell’energia del rumore e disturbo in generale.
Teoricamente, con un jammer (altoparlante che genera rumore)
posizionato direttamente nella zona posteriore, la migliore
cancellazione del rumore dovrebbe avvenire in conseguenza
dell’utilizzo di un diagramma di tipo cardiode; con un jammer
posizionato di lato, invece, un diagramma bidirezionale dovrebbe
risultare più efficace. Inoltre, di particolare rilievo per la
seguente discussione, con un jammer che genera un rumore
diffuso, il diagramma polare del tipo supercardioide sarà sempre
la migliore soluzione, in quanto si ha il più alto DI. Per
definizione, DI quantifica l’efficacia di un microfono direzionale
in un ambiente con rumore diffuso.
Variando il ritardo interno tra i microfoni posteriore ed anteriore,
il Processore Digitale del Segnale (DSP) può variare il
diagramma polare adattivamente da cardioide a supercardioide a
bidirezionale,
ricercando
la
migliore
configurazione
che
garantisce la più grande riduzione del segnale. In teoria, sceglierà
diversi diagrammi polari in relazione alla posizione della
sorgente rumorosa. Benché, in apparenza, l’idea dei diagrammi
45
polari adattivi risulti affascinante, valutando attentamente le
problematiche acustiche del mondo reale sorgono spontanee due
obiezioni riguardo l’effettiva efficacia.
Primo, è raro imbattersi in un ambiente acustico in cui sia
presente soltanto un jammer. Nella realtà, la maggior parte delle
situazioni in cui si verificano difficoltà di comprensione per
coloro che indossano protesi acustiche, presenta un numero
elevato di fonti di rumore, basti pensare a feste, ristoranti, ecc.
In secondo luogo, pur trovandoci in presenza di un solo jammer,
il segnale che proviene da esso è soggetto alle leggi fondamentali
della fisica acustica ed in particolare alla riflessione e di
conseguenza all’effetto della Distanza Critica.
La distanza critica è quella distanza dalla sorgente alla quale il
campo sonoro diretto assume lo steso valore del campo sonoro
riverberante.
DC =
q × S ×a
16p
Q indica il Il fattore di direttività
a valore medio del coefficiente di assorbimento
S Superficie della sorgente sonora
Si scopre che la distanza critica dipende dal grado di
assorbimento dell’ambiente, dalla sua superficie complessiva e
dalla direttività e direzione dell’altoparlante
Se ci si trova entro la distanza critica dalla sorgente allora il
suono diretto risulta chiaro e nitido a differenza del suono
riverberante che risulta confuso.
In ambienti in cui bisogna prestare particolare attenzione a ciò
che viene detto è bene dunque che l’ascoltatore venga
posizionato entro la distanza critica.
46
In qualsiasi ambiente acustico chiuso (basta anche la presenza di
un muro), un segnale incontra ostacoli che creano riflessi. Questi
ultimi, insieme ai segnali originali danno vita ad un campo
sonoro altamente omogeneo. Il segnale risultante in ogni punto è
dunque la somma del segnale originale più tutti i riflessi relativi
ad esso. Inoltre, in quest’ultimo caso, la posizione della sorgente
diventa piuttosto trascurabile, in quanto il segnale proviene da
più direzioni contemporaneamente.
E’ a questo punto che l’idea dei nulli adattativi in parte fallisce,
poiché un esame accurato mostra che le ricerche a supporto della
teoria
dei
nulli
adattativi
adoperano
jammers
vicini
all’ascoltatore, propriamente ad una distanza minore della D C
per la stanza in cui le misure sono state eseguite (Ricketts e
Henry, 2002). E’ solo in queste situazioni artificiose e ricostruite,
in cui grazie alle posizioni del jammer, il campo del suono diretto
domina il segnale in arrivo all’orecchio del portatore di protesi e
il sistema dei nulli adattativi dimostra il massimo beneficio.
Quando i jammers sono posizionati ad una distanza maggiore
della D C , dunque in un ambiente sonoro più simile a quelli che
normalmente si incontrano nel mondo reale, il rumore giunge
all’orecchio da più sorgenti, dovute a riflessioni nella stanza. In
questi casi la migliore soluzione è sempre un diagramma polare
diffuso di tipo supercardioide o ipercardioide (Trine,2004,2005;
Bentler, 2004; Woods e Trine, 2004; Yanz, 2006).
Poiché la maggior parte delle stanze, o ambienti chiusi in
generale, ha una D C dell’ordine di un metro, è ovvio che la
maggior parte dei jammers nel mondo reale si trovano ad una
47
distanza maggiore di D C . In altre parole, quando si incontrano
difficoltà a causa del rumore in un ristorante, è inverosimile che
ci sia soltanto una sorgente rumorosa e ancora più improbabile
che essa sia collocata ad un metro dalla testa di colui che indossa
protesi acustiche. Woods e Trine (2004) hanno mostrato che
negli ambienti che comunemente si incontrano nel mondo reale,
in cui il jammer è situato oltre la D C , un diagramma polare
diffuso di tipo supercardioide o ipercardioide, è in ogni caso la
migliore soluzione direzionale.
48
3.5
La sottrazione spettrale
Fig. n. 12 Schema a blocchi di processo di analisi di segnale vocale tramite stima di
spettro
Il fine ultimo dell’utilizzo della tecnica consiste nel migliorare la
qualità del segnale prelevato dal canale audio e nell’ottenimento
di un rapporto segnale/rumore che risulti il più vantaggioso
possibile. Il metodo della sottrazione spettrale, utilizzato per la
riduzione del rumore additivo da una sequenza, è basato sulla
sottrazione dello spettro di potenza stimato del rumore da quello
del segnale rumoroso. È stato sviluppato per ridurre il rumore
additivo da un segnale vocale (Short Time Spectral Subtraction)
ed è stato in seguito esteso anche alle immagini (Short Space
Spectral Subtraction): in questo caso si parla di “Short Time”
perchè il filtraggio va eseguito a blocchi. Tale tecnica
rappresenta la metodologia più comune per la reiezione dei
disturbi audio: nel corso degli ultimi decenni, infatti, ne sono
state sviluppate differenti varianti. Il “cuore” dell’algoritmo
(comune a tutte le implementazioni) resta ad ogni modo sempre
rappresentato dalla stima della potenza spettrale del rumore
49
insieme ad una determinata regola di sottrazione, che si traduce
in una relazione matematica tra i valori di SNR in ciascuna
porzione di banda considerata ed un fattore di peso spettrale, in
modo tale che le “sottobande” che presentano bassi valori di
SNR subiscano il “processing”, lasciando invece inalterate le
restanti (che sono tali da presentare alti valori nel rapporto
segnale/rumore). Uno dei primi ad illustrare nel dettaglio tale
metodologia fu Boll, nei suoi studi risalenti alla fine degli anni
’70 (1979, per la precisione) partendo dalle basi delle sue teorie,
trattazioni successive hanno esteso e generalizzato la tecnica,
portando a più ampie conoscenze anche riguardo al filtraggio di
Wiener e ai processi di stima basati sul principio di massima
verosimiglianza.
Ricordiamo, per semplicità e brevità di trattazione, come, nel
caso di rumore stazionario, sia sufficiente sottrarre il termine
dato dal valore medio statistico per ottenere una stima di tipo
“Least Mean Spuares” sello spettro di potenza:
Il più grande pregio della tecnica di sottrazione spettrale risiede
quindi nella sua semplicità e nel fatto che tutto ciò che si richiede
alla sua applicabilità è una stima di valor medio, senza necessità
di particolari assunzioni sul segnale.
50
3.6
L’algoritmo MMSE
Gli algoritmi adattivi ben si prestano ad applicazioni di
controllo attivo del rumore, sia in termini di prestazioni, e quindi
di abbattimento del rumore e di stabilità, sia in termini di costo
progettuale. Per quanto concerne le architetture del sistema di
controllo, nasce l’esigenza di utilizzare due sensori microfonici,
allo scopo di migliorarne
l’efficacia. Un algoritmo di
soppressione di tipo MMSE, che prende in esame il minimo
valore quadratico medio, sfrutta le proprietà statistiche dello
spettro dei segnali in esame, permettendo di ottenere un set di
pesi che minimizzano l’errore quadratico medio tra il segnale che
si desidera ricevere e una sua stima. Tali coefficienti di peso
risulteranno in stretta relazione con la potenza del segnale
desiderato e la matrice di covarianza contenente il contributo del
singolo segnale e dei rumore.
51
L’algoritmo di soppressione permette buona qualità vocale
risultante, e per ampi range di SNR.
Lo schema a blocchi riportato (nella figura 13) mostra i processi
necessari all’implementazione di tale tecnica:
Fig. n. 13 Schema a blocchi che realizza l'algoritmo MMSE
52
CAPITOLO IV
DESCRIZIONE DELLA PARTE
SPERIMENTALE E DEL SISTEMA
4.1
Descrizione del sistema
Per la sperimentazione è stato utilizzato un sistema formato da
un manichino che riproduce le sembianze del busto di un corpo
umano medio e da un computer gestito da un software (VIPER)
che
consente
sia
l’acquisizione
dei
segnali sonori
sia
l’elaborazione e l’estrazione di numerosi parametri psicoacustici
che permettono di determinare la qualità del suono.
Fig. n. 14 – Binaural recording head manikin and measuring microphones Mk1
La figura 14 mostra in maniera schematica la struttura del
sistema. Il manichino riproduce abbastanza fedelmente le
53
caratteristiche della parte superiore del corpo umano. In
particolare la testa, i padiglioni auricolari, il collo e le spalle.
Tale manichino consente di inclinare la testa rispetto al busto e
l’intero busto rispetto al piano. Nelle due orecchie in sostituzione
della membrana timpanica sono situati due microfoni di
precisione da ½ di pollice che simulano l’orecchio medio ed
interno.
Il manichino è alimentato sia con batterie che tramite rete. Inoltre
è possibile mediante un telecomando controllare le funzionalità
previste per l’acquisizione a distanza. Il manichino poggia su di
un supporto che contiene sia il sistema di polarizzazione dei
microfoni sia l’elettronica di amplificazione dei segnali. Inoltre
nella base è contenuto un DAT per la registrazione dei segnali, in
questa maniera è possibile fare delle acquisizioni prescindendo
dal computer.
I segnali possono essere acquisiti da un computer mediante un
opportuno software denominato VIPER
Questo consente sia di acquisire che di elaborare i segnali sonori
provenienti dal manichino.
Il VIPER comprende i moduli:
Ø
Sound Analysis Package VIPER BA
Questo modulo permette di registrare e riprodurre I segnali
sonori; eseguire la determinazione dei livelli sonori e l’analisi
spettrale (terzi di ottave ed FFT); filtraggio del segnale; analisi
tonale.
54
.
Ø
PerceptualXplorer VIPER PX
Con questo modulo è possibile analizzare e modificare le
componenti tonali del segnale mediante un editor ed inoltre
risintetizzare I segnali sonori modificati.
Ø
Psychoacoustics Analysis VIPER PSY
Il modulo permette di determinare alcuni dei principali
parametric psicoacustici legati alla percezione del suono quali:
loudness, sharpness, roughness, fluctuation strength, tonality.
Ø
Sound Editor and Filter Software VIPER ED
È un editor sonoro evoluto che permette di effettuare
numerose trasformazioni del segnale nel tempo quali: cut, copy,
paste, change, trim, fade-in/fade-out, change level, hearing-based
play back, sample rate converter, import/export of sound files
etc. permette di implementare numerosi tipi di filtri numerici
Inoltre permette di eseguire delle trasformazioni del segnale
direttamente sullo spettrogramma permettendo di modificare
parti del sonogramma. I segnali così modificati possono essere
riprodotti.
55
Ø Speech Quality-Analysis VIPER SQ
Questo modulo agendo sullo spettrogramma permette di
valutare indici quali l’Auditory Distance Spectrogram che
permettono di quantificare la qualità del parlato.
E’ possibile la taratura dell’intera catena di acquisizione
mediante dei calibratori.
Questo modulo agendo sullo spettrogramma permette di valutare
indici quali l’Auditory Distance Spectrogram che permettono di
quantificare la qualità del parlato.
E’ possibile la taratura dell’intera catena di acquisizione
mediante dei calibratori.
56
4.2
Protesi acustica utilizzata nei test
La protesi acustica utilizzata durante i test è la
Destiny 400 Dir BTE della casa produttrice Starkey,
dotata di 8 bande, 4 canali, 4 memorie, una bobina
ad induzione ed un rilevatore della direzionalità del
parlato.
Features:
Le caratteristiche standard del Destiny 400 Dir della Starkey
sono:
OSPL 90: 135 dB
Guadagno di Picco: 70 dB
Gamma frequenziale 200 – 6400 hz
Distorsione armonica: a 500 hz è 3 %, a 800 hz è 1 %, a 1600 hz
è1%
Rumore d’ingresso equivalente a 25 dB
Tempo d’attacco < 25 ms e tempo di rilascio < 200 ms
Ø L’Active Feedback Intercept (AFI)
Un il sistema di eliminazione di rumori che elimina in tempo
reale i fastidi acustici in modo che nessun suono artificiale
irritante venga percepito.
57
Ø L’Environmental Adaptation
E’ un sistema avanzato con soppressione di rumore che
automaticamente controlla e classifica le diverse tipologie di
rumori ambientali.
Ø Directional Speech Detector (DSD)
Rivelatore direzionale di discorso (DSD) che continuamente
controlla i livelli in decibel negli ambienti rumorosi e registra
la relativa zona di ricezione.
Ø Autocoil
Bobina telefonica programmabile disponibile negli apparecchi
con multimemoria senza l'esigenza della commutazione
manuale.
58
4.3
Fast Fourier Transform – FFT
La trasformata di Fourier veloce (spesso indicata come
FFT, dall'inglese Fast Fourier Transform) è un algoritmo
ottimizzato per calcolare la trasformata di Fourier discreta (detta
DFT)
per q = 0, 1, ..., N-1
e la sua inversa.
La FFT è di grande importanza per una grande varietà di
applicazioni, dall'elaborazione di segnali digitali, alla soluzione
di equazioni differenziali alle derivate parziali, agli algoritmi per
moltiplicare numeri interi di grandi dimensioni.
Nel XVIII secolo il matematico e fisico francese Jean Baptiste
Joseph Fourier elaborò un modello matematico noto appunto
come Analisi di Fourier. Tale metodo si basa su principio
generale che ogni onda periodica complessa può essere
scomposta e analizzata come una serie di onde periodiche
semplici.
Queste componenti semplici dell’onda periodica complessa
vengono dette armoniche del segnale complesso e il loro insieme
è chiamato spettro. Un postulato molto importante dell’analisi di
Fourier è che le frequenze delle armoniche sono i multipli interi
della frequenza del segnale complesso. La frequenza della prima
armonica, che per definizione è uguale a quella del segnale
complesso,è chiamata frequenza fondamentale (F0 ).
59
La base della FFT, allora, è il fatto che ogni segnale può essere
scomposto in una serie di sinusoidi, ciascuna delle quali possiede
una ben determinata frequenza, ampiezza e fase (teorema di
Fourier).
Bisogna notare che la trasformata di Fourier non è l'unica
esistente. Esistono altre trasformate in grado di scomporre un
segnale in una serie di componenti dello stesso tipo. Quella di
Walsh, per esempio, scompone un segnale in una serie di onde
quadre e presenta dei vantaggi dal punto di vista della sintesi (le
onde quadre sono molto più facili da generare rispetto alle
sinusoidi). La trasformata di Fourier, però, evidenzia alcune
caratteristiche interessanti:
Ø Gli elementi base della scomposizione (le sinusoidi) sono
onde prive di armonici. Possono quindi essere considerate come
"i mattoni" mediante la cui somma si crea un suono complesso.
Ø In effetti, questa proprietà è verificabile in quanto, sommando
le suddette sinusoidi, si ottiene il suono di partenza.
Ø È vero che la stessa cosa accadrebbe anche sommando le
onde generate da una qualsiasi altra trasformata, ma la
scomposizione basata su Fourier ha una maggiore evidenza
percettiva. È più facile farsi una immagine di un suono come
somma di elementi percettivamente semplici, come le sinusoidi,
rispetto alla somma di elementi complessi. Con la FFT, quindi,
possiamo analizzare lo spettro di un suono e vedere le sue
componenti, siano esse armoniche o meno, passando dalla
visione della forma d'onda, con il tempo sull'asse X, alla visione
in frequenza (frequenze sull'asse X). Proprio per questo è corretto
60
dire che, con la FFT, si passa dal dominio del tempo a quello
della frequenza. Il principale parametro di controllo della FFT è
la sua risoluzione che è determinata dal numero di campioni
(detti "punti") su cui viene effettuata. Come si vede dalla figura
seguente, le componenti (o parziali) della nota di pianoforte di
cui sopra sono via via più evidenti con l'aumentare del numero di
punti. Naturalmente un maggior numero di punti significa anche
un maggior tempo di calcolo.
Fig. n. 15 - Le componenti della nota di pianoforte che con l'aumentare del numero di
punti sono più evidenziate
61
Si ha, quindi, un passaggio dal dominio del tempo a quello delle
frequenze. Come tale, però, la FFT è una analisi istantanea che
vale solamente in quel punto del suono. Dato che il suono è in
evoluzione, potete considerare una singola FFT come un
fotogramma di un film.
Dal punto di vista matematico la FFT è un procedimento che
esprime una funzione come somma di sinusoidi.
Dal punto di vista acustico può benissimo essere vista come un
più semplice e comprensibile banco di filtri che suddivide l'intero
spazio delle frequenze da 0 a SR/2 in tante bande quanti sono i
punti diviso. Una FFT a 1024 punti, quindi, equivale a
suddividere il campo frequenziale in 512 bande.
Si può quindi considerare la FFT come un sistema che misura
l'energia contenuta in ognuna di queste bande. Se, per es., si
lavora con 2048 punti, è come se si dividesse l'intero spazio
frequenziale fra 0 e SR/2 in 2048 / 2 = 1024 parti. Di
conseguenza, con SR = 44100, ogni banda sarebbe larga
mediamente circa 22050 / 1024 = 21.53 Hz.
Vedendo la cosa in questo modo, si capisce anche perché la
risoluzione in frequenza aumenta con il numero dei punti e
quindi anche perché, nella figura qui sopra, con 256 punti non si
isolano le componenti. 22050 / 128 = circa 172 Hz, che è troppo
per isolare delle singole sinusoidi. La situazione migliora con
512 punti (risoluzione circa 86 Hz), è buona con 2048 (ris. circa
22 Hz) e ottima con 16384 punti (ris. circa 2.69 Hz).
62
La seconda cosa da ricordare è che, come già detto, l'analisi è
istantanea e vale, cioè, solo per l'istante in cui è stata effettuata. Il
punto di analisi è quello mediano rispetto al segmento analizzato.
Se abbiamo un suono con S/R = 44100 e facciamo una analisi su
4096 punti che a 44100 corrispondono quasi a 1/10 di sec.,
l'istante a cui l'analisi si riferisce è il centro di quei 4096
campioni. Prima e dopo, il suono potrebbe essere diverso.
È quindi errato fare una analisi e pensare "in questo suono
troviamo queste componenti". Il concetto esatto è "in questo
suono, in questo istante, troviamo queste componenti".
In effetti, il segmento su cui si fa l'analisi viene dapprima isolato
e poi moltiplicato per un inviluppo a forma di campana (con il
massimo al centro) e trasformato come nella figura a fianco.
Questo per evitare che il troncamento alle estremità influenzi il
risultato. L'effetto della finestra è quello di dare un peso
maggiore al centro del segmento e mostrare lo spettro con
maggiore pulizia.
63
Esistono vari tipi di finestre (Hamming, Blackmann, etc) che si
differenziano per la pendenza e la forma dei lati, il cui effetto su
frequenza e ampiezza è ridotto, ma è più evidente sulla fase delle
componenti risultanti, quindi per il momento lo possiamo
ignorare. Normalmente si usano finestre di Hamming o
Blackmann.
64
4.4
Sonogramma e Spettrogramma
Ora il nostro problema è: se la FFT è istantanea, come si può
creare una mappa completa dell'evoluzione di un suono nel
tempo?
La risposta è semplice: per poter ottenere una tale mappa, occorre
fare una serie di singole analisi a intervalli regolari per tutta la
durata dell'evento sonoro. Otteniamo così un sonogramma in cui
abbiamo il tempo sull'asse X, le frequenze sull'asse Y e ogni
componente è rappresentata da una linea che si estende nel
tempo, il cui colore è tanto più forte quanto è maggiore
l'ampiezza.
Poiché la rappresentazione è sul piano, mentre le dimensioni da
rappresentare sono 3 (frequenze, tempo e ampiezza), per la terza
si deve ricorrere al colore. Lo schema dei colori può essere
diverso, ma l'importante è che sia in grado di evidenziare le
differenze di ampiezza creando con lo sfondo un contrasto tanto
maggiore quanto più l'ampiezza è elevata.
Fig. n. 14 - Il Nell'immagine vengono rappresentati il sonogramma e lo spettrogramma
65
Con lo stesso procedimento si può ottenere uno spettrogramma.
Si tratta di una rappresentazione 3D in cui abbiamo ancora le
frequenze sull'asse X, il tempo sull'asse Y, mentre le ampiezze
sono rappresentate come altezze sull'asse Z. In tal modo è
possibile distinguere chiaramente anche l'inviluppo dei singoli
armonici. Ovviamente in quest'ultimo caso la colorazione è
accessoria e non del tutto necessaria, però. se è sensata, aiuta,
così come aiuta il fatto che lo spettrogramma possa essere ruotato
e studiato da diverse prospettive.
Nel caso del sonogramma, dobbiamo anche tener conto della
velocità con cui il suono cambia nel tempo. I suoni emessi dagli
strumenti musicali variano abbastanza lentamente e con una
certa gradualità, tranne che nel momento dell'attacco in cui
possono esserci anche variazioni molto veloci (i cosiddetti
"transitori" o "transienti").
In natura, però, possiamo trovare anche suoni che, nel corso della
loro vita, esibiscono variazioni molto complesse e veloci. In tal
caso, a volte, la ricerca di una maggiore risoluzione in frequenza,
aumentando il numero dei punti e quindi la lunghezza del
segmento su cui si fa l'analisi, può contrastare con la visione di
variazioni temporali troppo veloci. La risoluzione in frequenza
contrasta con la risoluzione temporale.
66
Ragioniamo: se ho un suono campionato a 44100 e la mia
finestra di analisi è lunga 16384 punti, essa dura 16384 / 44100 =
0.37 secondi, il che significa che ogni variazione che dura meno
ha buone probabilità di risultare malamente definita in senso
temporale. La cosa è mitigata solo dal fatto che, nella serie di
analisi per creare il sonogramma, le finestre delle varie analisi
vengono parzialmente sovrapposte. Comunque, in questi casi,
una FFT con pochi punti seguirà meglio il fenomeno rispetto a
una con più punti, anche se quest'ultima produce risultati più
definiti in frequenza.
67
CAPITOLO V
PARTE SPERIMENTALE
5.1
Descrizione dei test effettuati
Per testare l’affidabilità dei sistemi di abbattimento del rumore
delle protesi digitali è stata realizzata una batteria di tests che
prevedono l’utilizzo di una protesi digitale (Destiny 400) e il
sistema Viper. I test prevedono di effettuare l’audiometria vocale
sia in ambiente silente sia in competizione utilizzando come
segnale di competizione il Bubble Noise a due intensità (60 dB e
65 dB). Il test è stato effettuato nell’audiometria sperimentale
dell’Unità di Audiologia dell’Università Federico II di Napoli
nella quale la soglia di intellezione ai due livelli di competizione
è rispettivamente 40 dB HTL e 45 dB HTL.
68
0°
300°
60°
180°
69
Di seguito sono riportati i grafici del segnale acquisito senza le protesi
acustiche.
Senza protesi e senza rumore
70
Con protesi e senza rumore
71
Senza protesi con rumore a 60 dB
Molti
Stanza
Grande
Giallo
Lire
Fig. n. 16 - Nel grafico rappresentante il livello energetico, sono riportati i valori
ottenuti dalla sperimentazione senza protesi con rumore di competizione a 60 dB. Le
aree contornate in rosso esprimono le parole utilizzate durante il test vocale.
I cinque spike, come si evince dal grafico del livello energetico,
sono stati individuati a 4000 ms – 8000 ms – 13000 ms – 18000
ms e 23000 ms e corrispondono alle cinque parole utilizzate
durante il test:: molti, stanza, grande, giallo e lire.
72
Stanza
Grande
Giallo
Lire
Fig. n. 17 - Spettrogramma riferito al test vocale senza protesi con rumore di
competizione a 60 dB. Le aree in giallo posizionate al di sopra i picchi della
trasformata di Fourier rappresentano gli spike della parola
Osservando la FFT del segnale senza protesi e in ambiente
rumoroso (60 dB) si osserva un rumore di disturbo sulle alte
frequenze (7.000 e 10.000 Hz.). Tale rumore è da addebitare alla
presenza della ventola di aspirazione presente ed attiva nella
stanza al momento del test.
È da notare che il segnale di competizione, essendo rappresentato
dal buble noise, maschera completamente il segnale parlato.
73
Con protesi a 60 db di rumore
Molti
Grande
Stanza
Giallo
Lire
Dal grafico si nota subito la presenza del rumore che però non
inficia sul riconoscimento della parola. Di fatti i picchi
rappresentanti la parola appaiono comunque bel conservati
mentre il rumore nettamente attutito.
74
In basso invece possiamo notare la differenza di performance
della protesi in presenza ed assenza di rumore di competizione
dove i picchi appaio chiaramente nitidi e privi di fastidi dovuti al
rumore.
Fig. n. 18 Grafico che mostra il test effettuato con protesi e senza rumore di competizione
75
Stanza
Grande
Giallo
Lire
Fig. n. 19 Lo spettrogramma mostra l'uscita della protesi in condizioni di rumore a 60 dB
La figura mostra l’uscita della protesi nelle condizioni rumorose
con competizione a 60 dB. Lo spettrogramma evidenzia un
abbattimento del rumore ed osservando il grafico dell’andamento
dell’intensità in funzione del tempo si osserva come le parole
sono esaltate rispetto al rumore di fondo mantenendo in maniera
discreta il rapporto di compressione del linguaggio.
76
Aumentando l’intensità del segnale di competizione si osserva,
dalle figure seguenti, un grosso abbattimento del rumore che si
ripercuote sul riconoscimento del parlato. Infatti osservando lo
spettrogramma si nota un abbattimento, troppo spinto, sulle basse
frequenze rendendo il riconoscimento del linguaggio più
difficoltoso.
77
Senza protesi e con protesi a 65 dB di rumore
Aumentando l’intensità del segnale di competizione si osserva,
dalle figure seguenti, un grosso abbattimento del rumore che si
ripercuote sul riconoscimento delle parole. Infatti osservando lo
spettrogramma si nota un abbattimento, troppo spinto, sulle basse
frequenze rendendo il riconoscimento del linguaggio più
difficoltoso
Molti
Stanza
Grande
Giallo
Lire
Fig. n. 20 Grafico del livello energetico che mostra il test effettuato senza protesi e con
rumore di competizione a 65 dB
78
SENZA PROTESI
Grande
CON PROTESI
Lire
Giallo
79
Lire
CONCLUSIONI
Le protesi acustiche presentano i sistemi di abbattimento dei
rumori come ottimi algoritmi di elaborazioni che permettono di
esaltare il linguaggio in un ambiente rumoroso. Dai risultati della
sperimentazione si è osservato, oggettivamente, un’esaltazione
del linguaggio in ambiente rumoroso di 60 dB. Aumentando il
rumore a 65 dB ed aumentando corrispondentemente il livello del
segnale parlato, i sistemi iniziano a diminuire le proprie
performance. Infatti i risultati presentano un abbattimento troppo
marcato alle basse frequenze che pregiudicano, probabilmente, la
comprensione del linguaggio in un soggetto protesizzato.
Dall’analisi effettuata si può affermare che effettivamente i
sistemi di abbattimento hanno raggiunto un buon livello, tanto da
migliorare la resa delle protesi in ambienti rumorosi.
Nello stesso tempo, la sperimentazione dimostra che aumentando
il rumore si pregiudica l’affidabilità dei suddetti sistemi che si
traduce in un peggioramento della comprensione da parte del
soggetto protesizzato.
80
BIBLIOGRAFIA
·
Ing. Andrea Trucco (2004) DIBE – “Calcolo numerico per utilizzare i
residui di udito”. Convegno: “insieme nel mondo dei suoni" Rozzano (Mi)
·
Ing. Michele Ricchetti (2004) Linear – “Le protesi di V generazione”.
Convegno: Convegno: “Insieme nel mondo dei suoni" Rozzano (Mi)
·
Kaufman KR, Brey RH, Chou LS, Rabatin A, Brown AW, Basford JR.
“Comparison of subjective and objective measurements of balance disorders
following traumatic brain injury”. Med Eng Phys 2006 Apr; 28(3):234-9
·
Nielsen HB, Ludvigsen C (1978) “Effetct of hearing aids with directional
microphones in different acoustic”. Scand Audiol 217-24.
·
Michael Valente, Carl C. Crandell, M. Samantha Lewis and Jane
Enrietto (2003). “Improving Speech Recognition in Noise: Directional
Microphone and FM Systems”. The Hearing Journal.
·
Amlani, A. (2001). “Efficacy of directional microphone hearing aids: A
meta-analytic perspective”. Journal of the American Academy of Audiology
12(4): 202–214.
·
Kochkin S (1996). “Customer satisfaction and subjective benefit with highperformance hearing instruments”. Hearing Review 3(12): 16-26.
·
Fabry, D. (1994). “Noise reduction with FM systems in FM/EM mode”. Ear
and Hearing 15: 82–86.
81
·
Souza PE (2002). Effects of compression on Speech Acoustics,
Intelligibility, and Sound Quality. Trends in Amplification 6(4): 131-165.
·
Todd Ricketts, Anne Marie Tharpe, Vanderbilt Bill Wilkerson Center
(2005) - Journal of Rehabilitation Research & Development. Directional
Microphone Technology for Children. Volume 42, Number 4, Pages 133–
144
82
SITOGRAFIA
http://www.phonak.com
http://www.endoacustica.com/microfoni_direzionali.htm
http://www.cnr.it
http://www.audiosonica.com/it/
http://www.aevo.org/web/leggi.htm
http://www.centrodellequilibrio.it/index.htm
http://www.protesiacustiche.com/
http://www.audioprotesisti.tk
http://www.cdila.it/sordit%C3%A0/2PROTESI.htm
http://www.soundlite.it/articoli/2002/genn/noselli.htm
http://www.akg-acoustics.com/site/powerslave,id,1,nodeid,1,_language
,EN,country,EN.html
http://www.terratec.it/supporto/guide42.shtml
http://www.eclectic-web.co.uk/mike/electret_a.htm
http://www.sordita.it
http://www.starkey.it
http://www.amplifon.it
http://lesim1.ing.unisannio.it/LaboratorioOnLine/DSP/DSP.htm
83