Scarica il testo completo
Transcript
Scarica il testo completo
Hoc erat in votis! (Orazio, Satire) UNIVERSITA’ DEGLI STUDI DI NAPOLI “FEDERICO II” FACOLTA’ DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN TECNICHE AUDIOPROTESICHE Presidente: Prof. Elio Marciano TESI DI LAUREA PROTESI DIGITALI E SISTEMI DI RIDUZIONE DEL RUMORE AMBIENTALE Relatore: Ch.mo Prof. Gennaro Auletta Candidato: Gabriele Delosa Matr.585/26 Correlatore: Dott. Pasquale Riccardi Anno Accademico 2005 - 2006 2 INDICE pag. 4 Introduzione 1. ELEMENTI DELLA PROTESI DIGITALE 1.1 Elementi della protesi acustica digitale pag. 5 1.2 Funzionamento della protesi acustica pag. 9 1.3 Campionamento pag. 11 1.4 Teorema di Shannon - Nyquist pag. 13 1.5 Sistemi di compressione pag. 16 1.6 Vantaggi e svantaggi della protesi digitale pag. 18 1.7 Principali regolazioni delle protesi pag. 21 1.8 Amplificazione pag. 22 1.9 Ausili extra protesici (Sistemi FM) pag. 23 1.10 Il futuro: le protesi multi - microfono pag. 26 2. MICROFONI DIREZIONALI 2.1 Introduzione microfoni pag. 27 2.2 Tipologie di microfoni pag. 28 2.3 Le caratteristiche fondamentali di un microfono pag. 31 2.4 Diagramma polare di un microfono. pag. 34 2.5 Stabilità della risposta direzionale pag. 37 3 3. ANALISI GENERALE DELLE TECNICHE DI NOISE SUPPRESSION 3.1 Tecniche e classificazione pag. 38 3.2 Tecniche utilizzate per abbattere il rumore pag. 41 3.3 Background storico pag. 43 3.4 Il mitico beneficio dei nulli adattivi. pag. 44 3.5 La sottrazione spettrale pag. 48 3.6 L’algoritmo MMSE pag. 50 4. DESCRIZIONE DELLA PARTE SPERIMENTALE E DEL SISTEMA UTILIZZATO 4.1 Descrizione del sistema pag. 52 4.2 Protesi acustiche utilizzate nei test pag. 56 4.3 Fast Fourier Transform FFt pag. 58 4.4 Sonogramma e spettrogramma pag. 64 5 PARTE SPERIMENTALE 5.1 Descrizione dei test effettuati pag. 67 Conclusioni pag. 79 Bibliografia pag. 80 Sitografia pag. 82 4 INTRODUZIONE Con l’avvento dell’elettronica digitale e la realizzazione di microprocessori è stato possibile realizzare nuovi algoritmi di processamento che hanno reso le protesi acustiche più versatili. Nella protesi acustica, i segnali vengono tradotti in un codice binario. Ciò consente di manipolare il segnale in modo da adattarlo all’ipoacusico. La tecnologia digitale offre maggior flessibilità di elaborazione di soluzioni personalizzate per ogni singola perdita uditiva e consente di dotare la protesi acustica di funzionalità supplementari (algoritmi) che ne incrementano il valore in un maggior numero di situazioni di ascolto. Ad esempio: casa, lavoro, teatro etc. Con la tecnologia analogica è possibile effettuare modifiche puntuali sul segnale acquisito e ci si limita a definire l’amplificazione o variare piccoli parametri utilizzando un cacciavite rendendo cosi le modifiche poco controllabili. Con il digitale dunque si è inaugurata una nuova filosofia di protesi: prima l'utente era costretto ad adattarsi all'ausilio acustico, infatti ancora oggi le migliori protesi tradizionali, consentono un margine di regolazione limitato. Attualmente con le protesi digitali (computer acustici), è la protesi che deve essere adattata alle esigenze dell'utente. 5 CAPITOLO I ELEMENTI DELLA PROTESI DIGITALE 1.1 Elementi primari della protesi acustica digitale ADC DSP DAC Fig. n. 1 - Sono rappresentati gli elementi primari di una protesi digitale Lo schema a blocchi in figura 1 mostra gli elementi primari della protesi acustica digitale. Una protesi acustica digitale tipica consiste in uno schema dotato di tre semiconduttori con una memoria: EEPROM non volatile, un dispositivo digitale e un dispositivo analogico. Il dispositivo analogico include il convertitore analogico-digitale ADC, il preamplificatore del microfono e lo stabilizzatore di tensione. Il convertitore ADC ha tipicamente una gamma di frequenza di 20 Khz con 16 bit di risoluzione. Il dispositivo digitale è il DSP. Dal DSP il segnale è in digitale ed usa impulsi a larghezza modulata. 6 Fig. n. 2 - E’ rappresentato lo schema a blocchi di una protesi digitale con i suoi componenti All’interno dello schema a blocchi, come raffigurato nella figura 2, troviamo l’ADC (Analogic Digital Converter) che converte il segnale analogico in segnale digitale, il Clock (Ritmo) che ha il compito di sincronizzare il funzionamento dei dispositivi elettronici digitali e viene generato da un oscillatore al quarzo. Per aumentare le prestazioni di una CPU quindi è possibile agire sulla massima frequenza di Clock. Il cuore di una protesi acustica è il Digital Signal Processor (DSP -processore di segnale digitale) un insieme di tecnologie e algoritmi che permettono di analizzare un segnale analogico dopo che è stato campionato. E’ un particolare tipo di microprocessore ottimizzato per eseguire, in maniera estremamente efficiente e precisa, sequenze di istruzioni molto ricorrenti nel condizionamento di segnali digitalizzati (come ad esempio somme, moltiplicazioni e traslazioni). Nel digital signal 7 processing, il segnale è elaborato a blocchi (numero di bit da elaborare) ognuno dei quali passa attraverso un numero di stadi di elaborazione. Questi passi vengono ripetuti per tutti i blocchi, nello stesso ordine ed in ben determinate finestre temporali. Dopo questo passaggio il segnale viene poi riconvertito in analogico. Tutte le informazioni vengono raccolte all’interno delle Eeprom (Electrically Erasable and Programmable ROM), una memoria ROM che a differenza di quest’ultima è cancellabile e riscrivibile, mediante opportune tensioni e correnti applicate ai MOSFET (i componenti base di una ROM) che la compongono. Il Pre Class-D amplifier è un amplificatore specificamente mirato che ha lo scopo di effettuare una riproduzione sonora e musicale di alta qualità. Ultimo componente presente in una protesi è la battery. Le batterie utilizzate in ambito audioprotesico sono pile zinco – aria aventi un’oscillazione di 1.3 – 1.4 V. La caratteristica peculiare però riveste non il voltaggio, bensì l’amperaggio vale a dire la quantità di scarica in unità di tempo (A=1/T). Maggiori sono le dimensioni della pila, maggiore è la capacità di scarica cioè la disponibilità di energia in unità di tempo. Le pile in commercio, non specifiche per l’utilizzo in ambito audioprotesico, hanno un’affidabilità soltanto del 70 % rispetto alle batterie progettate dalle case produttrici di protesi acustiche. 8 · 1.4 V Nella Figura è rappresentata la fase di over-changing: la batteria, estratta la linguetta, subisce una fase di sovraccarica che dura all’incirca cinque minuti, nei quali il rendimento della protesi è falsato Over - changing T La figura n. 3 mostra la fase di over-changing delle batterie utilizzate in ambito audioprotesico 9 1.2 Funzionamento di protesi acustica Fig. n. 4 – Immagine riferita ad una protesi acustica endoauricolare. Il microfono raccoglie i segnali acustici (onde sonore) e li trasforma in segnali elettrici. Le onde sonore colpiscono la membrana microfonica, innescandone la vibrazione; la membrana consiste in un foglio molto sottile di materiale leggero; la qualità del microfono dipende proprio dalla membrana e dalla facilità con cui vibra. Nelle protesi acustiche vengono montati microfoni electret; il loro utilizzo ha migliorato la qualità di riproduzione del suono ed ha permesso di aumentare la banda di frequenza. In alcune protesi retroauricolari, si montano microfoni "direzionali" che presentano due aperture per l'ingresso dei suoni, una anteriore e una posteriore. L'apertura frontale del microfono, migliora l'ascolto in ambienti con rapporto segnale-rumore sfavorevole e riproduce in parte la 10 direzionalità dell'orecchio umano, mentre la risposta e la sensibilità rimangono inalterate; l’utilizzo nel microfono posteriore rende la protesi più sensibile al vento. Il ricevitore riceve il segnale elettronico amplificato e lo trasforma aumentandolo in un segnale sonoro utilizzabile dall'orecchio umano. Il ricevitore, tra i componenti che costituiscono la protesi acustica è senza dubbio il più delicato ed è responsabile di parecchi problemi tipici della protesi. Simile ad un altoparlante in miniatura, esso è costituito da una bobina, da un magnete permanente e da una membrana sottile e cedevole, paragonabile alla membrana microfonica e rigidamente collegata alla bobina. Quando quest’ultima è percorsa dal segnale elettrico sonoro vibra e con essa anche la membrana generando un segnale sonoro udibile. Le caratteristiche acustiche del ricevitore variano con la lunghezza ed il diametro del tubicino che trasferisce i suoni alla chiocciola auricolare. Intervenendo sulla "curvetta" è possibile adattare la risposta in frequenza di una protesi alle esigenze della persona. Quando arriva il suono, l’elettromagnete genererà un campo positivo o negativo che attirerà o respingerà l’elemento metallico consentendo l’oscillazione della membrana. Tale movimento tradurrà il segnale creando onde di compressione e rarefazione facendo si che il segnale si trasformi da elettrico in acustico. 11 1.3 Campionamento Il processo che consente di passare da una grandezza analogica ad una numerica (discreta) si chiama “campionamento”. Con il campionamento si traduce il segnale analogico – digitale e consente nel quantizzare le grandezze analogiche. Il numero di livelli e la risoluzione della conversazione analogico – digitale sono legati al numero di bit secondo la tabella che segue. N° BIT N° Livelli 1 2 3 4 5 6 7 8 9 10 11 12 13 14 2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 16384 Il campionamento quantizza il segnale su un certo numero di livelli. L’errore massimo che può compiere dipende dall’ampiezza di intervallo di quantizzazione. L’unisono dei livelli è dato dal numero di bit. Il livello di quantizzazione è scelto in modo da avere un errore di quantizzazione inferiore a quello generato da altre fonti di errore 12 già presenti nel segnale, ad esempio negli apparecchi acustici il rumore introdotto dal microfono. La frequenza minima di campionamento tale da rappresentare il segnale analogico è detta "frequenza di Nyquist" e corrisponde alla metà della frequenza di campionamento (fc + 1). La risoluzione del campionamento è definita in questo modo: N = Numero dei bit L’operazione di campionamento è attuata da un dispositivo elettronico detto convertitore A/D. Cosi come occorre conoscere quanti campioni al secondo siano necessari per descrivere il segnale è altresì necessario conoscere su quanti livelli assegnare valori ai campioni. Più livelli avremo a disposizione da attribuire all’intensità del segnale, più precisa sarà la sua rappresentazione e migliore la sua risoluzione. Fig. n. 5 - Processo di campionamento di una forma d'onda sinusoidale 13 1.4 Teorema di Shannon - Nyquist "La frequenza di campionamento deve essere maggiore o uguale al doppio +1 della frequenza massima contenuta nel segnale". Se non si rispetta questo teorema le componenti di suono a frequenza più elevate saranno sottocampionate determinando una ricostruzione errata del segnale (fenomeno denominato aliasing). Per ovviare a ciò, nella protesi è presente un filtro Anti – Aliasing che limita la banda del segnale analogico ad un valore B in modo da evitare l'aliasing, cioè la sovrapposizione del contenuto informativo per la frequenza di campionamento fissata. Fig. n. 6 - Segnale sottocampionato. Esempio di aliasing. Le sinusoidi a 0.5 KHz (nera) e a 3.5 kHz (colorata) hanno la stessa ampiezza se queste forme d’onda vengono campionate ogni 0.25 ms (punti neri corrispondono a una frequenza di campionamento di 4kHz). Campionando invece ogni 0.125 ms (punti colorati corrispondenti a frequenza di campionamento di 8 kHz) si ottengono valori diversi per le ampiezze dei due segnali. 14 Aumentando la frequenza di campionamento, maggiore sarà il numero di valori nell’unità di tempo e quindi minore sarà l’errore che si commette, per questo motivo in pochi anni le frequenze di campionamento sono aumentate notevolmente: Dispositivo Frequenza di campionamento ( Hz ) CD – Compact Disc 44100 DAT – Digital Audio Tape 48000 DVD – Digital Video Disc 96000 DVD Audio 192000 L’utilità di frequenze di campionamento così elevate (192 KHz, 96 KHz) è discutibile almeno per quanto riguarda l'utilizzo acustico, perché il nostro sistema uditivo non è così sensibile. Un sistema di campionamento classico è cosi rappresentabile: Fig. n. 7 - Campionatore 15 Il segnale analogico è inviato ad un convertitore analogico/digitale che campiona il segnale e lo trasforma in parole di n bit. Il campionamento attraverso un A/D provoca un’ulteriore perdita d’informazione, infatti, sul segnale si opera un’altra discretizzazione oltre a quella nel tempo, vale a dire quella d'ampiezza. Per codificare gli infiniti valori possibili di un segnale analogico bisognerebbe avere a disposizione un numero infinito di bit. Questo, ovviamente, non è possibile e quindi si limita la lunghezza delle parole di bit e di conseguenza il numero dei livelli d’ampiezza assumibili dai campioni. Una caratteristica che deve essere garantita nel campionamento, è un alto rapporto segnale – rumore (S/N), che è controllabile attraverso il numero di bit utilizzati. 16 1.5 Sistemi di compressione I sistemi di compressione utilizzati nelle protesi acustiche servono per limitare l’uscita di un segnale acustico. Nelle protesi digitali solitamente vengono utilizzato o sistemi AGC (Automatic Gain Control) oppure sistemi combinati (Peak clipping e Agc) denominati Front clipping. Il sistema AGC (automatic gain control) è un sistema che stabilisce il limite superiore e quello inferiore, cioè racchiude una banda d’intensità d’oscillazione nella quale il segnale deve variare. Il sistema è un amplificatore retroazionato. Esempio: T1 T2 Limite max Se il segnale è inferiore al limite minimo, il segnale non è elaborato. Mentre se rientra nel range d’intensità è amplificato seguendo un proprio algoritmo. 17 Nel momento in cui supera il limite massimo il sistema lo identifica come segnale troppo forte e ne diminuisce la capacità d’amplificazione comprimendolo nel range stabilito. Con il Peak clipping, sistema di compressione immediato (non ha tempi d’attacco e di rilascio) che taglia il segnale senza comprimerlo, il segnale elettrico viene tagliato facendo rimanere invariata l’amplificazione. Con l’AGC si agisce sull’amplificazione e non sul segnale; pertanto il segnale viene compresso in modo tale da non superare mai l’uscita massima. Attualmente sulle protesi è molto difficile trovare applicato solo l’AGC, in genere esiste un sistema misto definito “Front clipping”, che in realtà mette insieme AGC + P.C. Il sistema funziona in serie e viene prima l’AGC e dopo il P.C. quindi il segnale passa prima in uno e dopo nell’altro. Tutto questo per eliminare il problema del tempo d’attacco. Un tempo d’attacco troppo breve fa si che qualsiasi segnale innesca il sistema, mentre un tempo d’attacco troppo lungo determina un superamento del suono maggiore rispetto al limite, e quando si attiva il sistema il paziente avverte il click. Come funziona il FRONT CLIPPING: Per ovviare al limite dell’ AGC, il cui tempo d’attacco ( ~ 5 - 50 ms) potrebbe essere tale da far passare un suono troppo forte provocando un fastidio (dolore) al soggetto, si utilizza un P.C. in ingresso con cui il sistema limita superiormente il segnale sonoro ovviando al problema descritto. 18 1.6 Vantaggi e svantaggi delle protesi digitali: Vantaggi: · Personalizzazione delle protesi acustiche · Rendere più confortevole l’utilizzo protesico nelle diverse condizioni acustiche e ambientali e adattare nel migliore dei modi una configurazione audiometria inusuale. · Avere una flessibilità sufficiente per affinare la regolazione quando si ottengono informazioni audiometriche maggiori. · Diminuire il problema del feedback acustico · Maggiore affidabilità e robustezza · Maggiore dinamica dei suoni gestibili senza distorsione · Minore generazione del rumore interno · Elaborazione multi – banda di diversa natura, applicata alle varie frequenze contenute nel segnale d’ingresso. 19 Svantaggi · Scarso rendimento delle protesi digitali nella protesizzazione di perdite profonde a causa delle limitate potenze e degli alti consumi che non riescono ad eguagliare qualitativamente le classiche protesi analogiche. · Dimensioni ridotte del ricevitore, la tensione della membrana restringe il campo d’azione e determina una banda passante limitata · Difficile programmazione · Alte distorsioni in particolari e ristrette situazioni (es. nelle perdite profonde). Gli apparecchi digitali offrono il controllo permanente automatico e adattativo dell’effetto Larssen (suono emesso dal ricevitore) che consente di ridurre o eliminare uno dei più fastidiosi inconvenienti degli apparecchi di potenza e di migliorare le possibilità di applicazione. Inoltre il controllo del fischio consente di utilizzare inserti auricolari aperti o ventilati aumentando il confort di uso specialmente di chi inizia ad utilizzare gli apparecchi acustici. La presenza di un dispositivo digitale in grado di individuare la presenza della voce e di adattare di conseguenza le modalità di amplificazione dell’apparecchio. Consente di migliorare la comprensione della voce nel rumore e di ridurre la sovrastimolazione acustica in assenza di parlato. Questa ultima possibilità è particolarmente 20 importante per ridurre l’affaticamento acustico nei bambini che notoriamente frequentano ambienti molto rumorosi. Un apparecchio digitale può e deve essere regolato non solo sulla base dei referti audiometrici classici (audiometria, vocale, impedenzometria, ecc.) ma anche sulle capacità di elaborazione dei suoni del paziente. Per fare un esempio un professionista, con vita sociale e lavorativa dinamica e basata sui contatti interpersonali avrà una capacità e una esigenza di elaborazione dei suoni diversa da un’altra persona che, a parità di perdita uditiva, svolge un lavoro ripetitivo con pochi contatti sociali. E’ proprio dall’analisi dello stile di vita e dall’età oltre che dai dati audiometrici tradizionali, che il software dei digitali super, propone un tipo di regolazione che potrà essere di amplificazione lineare oppure non lineare con caratteristiche di adattamento veloce o lento. Questo tipo di adattamento basato sulle esigenze di vita e sulle “prestazioni”di ascolto del paziente rappresenta la nuova frontiera della terapia audioprotesica. 21 1.7 Principali regolazioni delle protesi Una protesi acustica ha essenzialmente quattro tipi di controllo: Ø il controllo del volume, modifica l’intensità in uscita e condiziona i livelli soggettivi della sensazione soggettiva di intensità (loudness); Ø il controllo di tono, agisce sul profilo della risposta in frequenza e condiziona la risposta soggettiva di altezza tonale (pitch); Ø il controllo di uscita limita l’intensità massima in uscita, dovrebbe contribuire a un ascolto confortevole anche in presenza di elevate intensità all’ingresso della protesi; Ø il controllo dei tempi di attacco e di rilascio del sistema di limitazione di uscita. 22 1.8 Amplificazione L’amplificazione fornita dalla protesi acustica può essere lineare o non lineare. Lineare: un’amplificazione lineare significa un guadagno costante, per qualsiasi intensità all’ingresso, almeno finché viene raggiunto il limite di saturazione dell’amplificatore. Non lineare: un’amplificazione non-lineare fornisce guadagni differenti a seconda di differenti livelli di intensità all’ingresso; il guadagno è più elevato per intensità di ingresso basse, mentre il guadagno e più ridotto per intensità intermedie di ingresso. 23 1.9 Ausili extra protesici Trasmettitori in radio frequenza che migliorano il rapporto Segnale/Rumore e l’intelligibilità del parlato Le scuole sono sempre un luogo molto movimentato e rumoroso, in questo contesto il bambino portatore di apparecchio acustico può rimanere disturbato e incapace di distinguere correttamente le voci. Per ovviare a questo problema dal 1997 è disponibile il Microlink. Fig. n. 8 - Sistema a radiofrequenze: il Microlink 24 che tramite un sistema di trasmissione FM senza fili collega le protesi del bambino a un microfono indossato dalla maestra. Ciò consente di sopprimere il rumore di fondo e di migliorare il rapporto segnale/rumore sino a 20 dB. L’uso del Microlink è assolutamente consigliabile per tutti i bambini e ragazzi con sordità gravi e profonde. Infatti, anche con un apparecchio acustico perfettamente adattato, può non esserci la garanzia assoluta di una buona comprensione in tutte le situazioni. La distanza da chi parla e rumori di sottofondo possono rendere molto difficile sentire il segnale che si desidera. Microfoni direzionali e sistemi FM, sono nuove soluzioni ad alta tecnologia, utili a superare questo tipo di impedimenti. Un sistema FM (onde radio a modulazione frequenza), consiste in 25 una trasmittente dotata di microfono, indossata da chi parla, e di un ricevitore collegato all'apparecchio acustico dell'utente. La voce di chi parla viene trasmessa sulle onde FM direttamente al ricevitore, attaccato all'apparecchio acustico. I sistemi FM sono largamente utilizzati nei programmi scolastici per bambini con perdite uditive, facilitano così la comprensione di ciò che la maestra dice. 26 1.10 Il futuro: le protesi multi – microfono Mantengono le caratteristiche delle protesi digitali. Incrementano il rapporto tra il segnale utile ed il rumore (SNR) grazie alla separazione spaziale delle sorgenti. L’incremento in SNR produce una migliore intelligibilità del parlato. Le ricerche che diverse case produttrici stanno conducendo potrebbero portare alla creazione di protesi digitali multi – microfono in grado di offrire alta direzionalità grazie a schiera di microfoni e raffinate tecniche di elaborazioni dei segnali. 27 CAPITOLO II MICROFONI DIREZIONALI Un elemento cruciale per le protesi acustiche 2.1 Introduzione Microfoni La scelta del microfono giusto può influire in modo determinante sulla comprensione del parlato in presenza di rumore e quindi sulla capacità uditiva. Un microfono direzionale, attualmente, è il solo metodo dimostrabile ed attendibile per riuscire a rendere migliore il rapporto segnale – rumore in un apparecchio acustico e dunque riuscire ad incrementare la capacità di comprendere il parlato in situazioni d’ascolto rumorose per chi indossa il dispositivo. I microfoni sono trasduttori in grado di trasformare energia acustica in energia elettrica, in particolare le variazioni della pressione atmosferica vengono convertite in variazioni di tensione e dunque in corrente. Tuttavia, pur raccogliendo un generale consenso l’affermazione precedente, non c’è mai stato un completo accordo riguardo il miglior metodo per la realizzazione stessa della direzionalità in una protesi acustica, né riguardo il diagramma polare ottimale per determinare il beneficio massimo nella processazione digitale. 28 2.2 Tipologie di microfoni Le tecnologie con cui vengono realizzati i microfoni sono diverse e questo ci permette di avere a disposizione una vasta gamma di soluzioni a seconda del contesto in cui ci troviamo ad operare. Vi sono microfoni più o meno sensibili, con diverse direzionalità, senza poi contare che ogni microfono ha un suo proprio timbro personale che lo caratterizza e che lo rende a suo modo unico. Nella pratica comune vengono impiegati una serie di microfoni standard che costituiscono una sorta di riferimento per gli operatori; l'esperienza consente di allargare i propri orizzonti e trovare il microfono preferito per ogni contesto lavorativo. I microfoni si possono dividere in due grandi classi: microfoni dinamici e microfoni a condensatore. Microfoni dinamici: Sono più resistenti ed economici, reggono maggiormente gli alti volumi, ma hanno una maggiore inerzia al movimento, dovuta a motivi costruttivi (la pesantezza di membrana e avvolgimento), quindi non rendono i transienti come i condensatori, e spesso hanno una risposta in frequenza limitata. I microfoni dinamici forniscono una buona qualità, sebbene inferiore a quelli a condensatore, non necessitano di alcuna alimentazione, sono robusti e in grado di sopportare notevoli sovraccarichi acustici. 29 Microfoni a condensatore (electret) : Questo tipo di microfono (detto anche elettrostatico) possiede al suo interno un condensatore. Una delle due piastre del condensatore è il diaframma del microfono e vibra in accordo con l'onda acustica da cui viene investito. La vibrazione della piastra produce la variazione della distanza tra le due piastre variando così il valore della capacità. Questo implica una variazione della tensione ai capi delle piastre con un conseguente passaggio di corrente. Il diaframma viene realizzato in mylar (un tipo particolare di plastica) rivestito di uno strato d'oro (eccellente conduttore). Si rende necessaria l'applicazione di un voltaggio per polarizzare inizialmente il condensatore. Questo prende il nome di phantom power e viene fornito generalmente dal mixer al quale il microfono viene collegato. Fig. n. 9 - Schema del microfono a condensatore (electret) 30 La tensione phantom ha il duplice scopo di polarizzare il condensatore all'interno del microfono e di amplificare la corrente proveniente dallo stesso. I microfoni a condensatore sono molto più accurati dei microfoni elettrodinamici in quanto il diaframma può essere realizzato con materiali molto leggeri e di dimensioni ridotte e dunque può risultare molto sensibile anche alle frequenze più alte. Di seguito sono elencate le caratteristiche principali dei microfoni a condensatore: Ø Diaframma molto sottile che permette una buona riproduzione anche delle frequenze più alte. Ø Si può danneggiare se sottoposto a pressioni sonore molto elevate. Ø Molto delicato 31 2.3 Caratteristiche fondamentali di un microfono Le caratteristiche fondamentali di un microfono sono: Ø Il principio di traduzione, a condensatore, dinamico, a electret, piezoelettrici Ø La risposta in frequenza, che dovrebbe essere il più possibile regolare (piatta). Ø La sensibilità, cioè il rapporto fra ampiezza del segnale elettrico uscente dal microfono e ampiezza del segnale acustico, che è un'espressione del rendimento del microfono. Viene di solito espressa in mV/µbar (milliVolt per microbar). 1 µbar corrisponde a 74 dB. Valori usuali sono di 1 mV/µbar, dal che si può dedurre che il segnale uscente da un microfono è molto basso, circa 300 volte minore del segnale uscente dalle altre apparecchiature dello studio; esso va perciò preamplificato per portarlo allo stesso livello degli altri segnali. Gli ingressi per microfono presenti nelle apparecchiature sono perciò diversi dagli ingressi per segnali ad alto livello, detti ingressi di linea Ø La massima pressione acustica o pressione acustica limite, espressa in dB specialmente critica per la registrazione di strumenti in grado di produrre suoni di grande intensità, come gli strumenti a percussione 32 Nella tabella seguente si riassumono le caratteristiche dei principali tipi di microfoni: Tipo Tensione di uscita Impedenza Qualità Dinamico Da 1 a 10 mV Alta o bassa A condensatore 1 mV Bassa Da cattiva a molto buona Ottima A elettrete 1 mV Bassa Discreta Piezoelettrico 100 mV Alta Cattiva Note Robusti Delicati, necessitano di alimentazione esterna Necessitano di batterie Fig. n. 10 - Nella tabella si riassumono le caratteristiche dei microfoni La direzionalità esprime la capacità del microfono di captare piú o meno bene i segnali in base alla direzione di provenienza. In figura sono indicate le caratteristiche direzionali di microfoni omnidirezionali (o panoramici, che hanno una risposta uguale per tutti gli ingressi indipendentemente dalla direzione da cui provengono), unidirezionali (a cardioide, in cui viene amplificato il segnale proveniente da una sola direzione), bidirezionali (a otto) e superdirezionali (a clava). La direzione frontale è indicata con l'angolo di 0°, quella posteriore con l'angolo di 180°. Osservando il diagramma di un microfono omnidirezionale, si nota che la sensibilità è la medesima per i suoni che provengono da qualsiasi direzione. Per quanto concerne il microfono a cardioide (così chiamato per la sua caratteristica direzionale assimilabile alla forma di un cuore) e limitatamente ai suoni provenienti dalla direzione frontale (0°) 33 la sensibilità è quella nominale di 0 dB; via via che la sorgente sonora si sposta, la sensibilità diminuisce, per ridursi di 24 dB quando la direzione di provenienza è posta dietro il microfono (180°). Grande importanza ha poi, nei microfoni direzionali, la variazione della caratteristica in funzione della frequenza; la direzionalità è infatti più accentuata per le frequenze alte, mentre alle frequenze basse il microfono si comporta praticamente come panoramico. Questo fenomeno, insito nel principio di trasduzione dei microfono, può dare luogo, se trascurato, a difetti nella ripresa del suono, ma può anche suggerire particolari tecniche di ripresa microfonica. 34 2.4 Diagramma polare di un microfono I diversi criteri di costruzione dei microfoni possono essere impiegati per ottenere caratteristiche direzionali diverse. Sono infatti state messe a punto una serie di metodologie di costruzione che permettono di focalizzare la sensibilità di un microfono verso una o più direzioni specifiche e questo apre l'orizzonte a tutta una serie di tecniche di microfonaggio che vedremo successivamente. L'andamento della sensibilità a seconda della direzione di provenienza del suono viene descritto da un grafico denominato diagramma polare. Nella figura seguente vengono riportati i diagrammi polari più comuni con la loro denominazione, il centro rappresenta il microfono con il suo diaframma mentre attorno a questo viene riportato il valore della sensibilità al variare della direzione. La direzione viene misurata in gradi. 0 gradi è il punto esattamente di fronte al diaframma mentre 180 gradi indica la posizione opposta, cioè dietro al microfono. Ogni corona concentrica, a partire dalla più esterna, indica una perdita di 3 dB (per esempio, nella figura b - diagramma cadioide - si può notare una perdita di 3 dB per suoni provenienti da una direzione con un angolo di 45 gradi rispetto alla direzione centrale): diamo di seguito una breve descrizione per ogni diagramma: Circolare: il microfono è egualmente sensibile in tutte le direzioni dello spazio. Un suono viene riprodotto con la stessa accuratezza da qualsiasi direzione provenga (almeno in linea di 35 principio) in quanto un diagramma perfettamente circolare risulta impossibile da ottenere a causa di vincoli fisici. Cardioide: il nome deriva dalla linea a forma di cuore del diagramma. In questo caso i suoni provenienti da dietro il microfono non vengono captati dallo stesso o meglio, come vedremo, vengono drasticamente attenuati. Super cardioide: come il diagramma cardioide caratteristiche di direzionalità ma con accentuate. Tuttavia per stringere il diagramma anteriore bisogna accettare l'insorgenza di un piccolo lobo posteriore. Ciò implica un leggero aumento della sensibilità ai suoni provenienti da dietro al microfono. Iper cardioide: come il super cardioide ma con caratteristiche di direzionalità ancora accentuate. Da notare la presenza ancora maggiore del diagramma cardioide posteriore. 36 Nella figura seguente vengono riportati i diagrammi polari precedenti in una visione tridimensionale: Fig. n. 11 - Sono riportati i diagrammi polari in visione tridimensionale 37 2.5 Stabilità della risposta direzionale I microfoni direzionali devono essere precisamente calibrati in intensità e fase. L’accuratezza al momento della realizzazione e il mantenimento nel tempo della precisione richiesta sono presupposti necessari per la reale efficacia del sistema direzionale. Quindi massima cura all’indice di Direttività (DI) in fase di realizzazione ed al deterioramento causato dalla temperatura e l’umidità che possono compromettere l’efficacia della direzionalità. 38 significativamente CAPITOLO III ANALISI GENERALE DELLE TECNICHE DI NOISE SUPPRESSION 3.1 Tecniche e classificazione Oggi è universalmente riconosciuto che le strategie di trattamento dei segnali dovrebbero variare a seconda dei diversi ambienti sonori. I presupposti per una ottimale comunicazione in ambienti silenziosi sono udibilità e buona qualità del suono; quando nei canali di comunicazione interviene il rumore, sia esso di fondo o impulsivo, l’obiettivo principale diventa migliorare il rapporto segnale/rumore per comprensione del parlato. 39 consentire una migliore Il rumore rappresenta qualcosa che dobbiamo assolutamente eliminare o per lo meno ridurre. Il quadro, però, non è così negativo se pensiamo che il rumore, benché presente, spesso ha un’ampiezza limitata che viene facilmente sovrastata dal segnale audio. Per ogni tipologia di rumore nel corso degli anni è stata comunque trovata una contromisura più o meno efficace. I sistemi vengono nessun di Noise definiti Suppression statici parametro quando relativo alla compressione varia. Al contrario, sono detti dinamici quando l’algoritmo di riduzione si adatta continuamente al segnale d’ingresso. Una seconda classificazione identifica col termine 4single - ended quei sistemi di soppressione applicati solo in un punto della catena audio (come ad esempio, i filtri). Vengono indicati, invece, col termine double - ended quei sistemi che prevedono un doppio intervento, consistente generalmente nelle due fasi di codifica e decodifica (come avviene nel sistema Dolby). II sistema che andremo ad illustrare e proporre nei capitoli che seguono, date la variabilità del segnale d’ingresso, la molteplice natura e le differenti caratteristiche del segnale interferente, dovrà possedere senza dubbio buone qualità dinamiche di adattamento. Entrando più nello specifico, esso deve possedere tre requisiti 40 fondamentali, i quali ci permetteranno una corretta soluzione del problema relativo alla cancellazione, e cioè: Ø Deve poter permettere l’acquisizione dei segnali audio su cui si vuole lavorare (tramite operazioni di campionamento e quantizzazione). Ø Deve poter offrire la possibilità di effettuare una misurazione qualitativa dei campioni. Ø Deve offrire ampie garanzie riguardo alla caratterizzazione dei disturbi presenti. 41 3.2 Tecniche utilizzate per abbattere il rumore La caratterizzazione del miglioramento qualitativo di un segnale, in genere, viene effettuata sia tramite una sua analisi visiva, nel dominio temporale e nel dominio delle frequenze (spettro), che tramite la variazione di alcuni parametri; tra questi ultimi, ricordiamo il rapporto segnale/rumore, che, tramite l’utilizzo di moderne tecniche, può essere aumentato significativamente rispetto ai risultati ottenuti in seguito all’applicazione standard della tecnica di sottrazione spettrale. Si noti, tuttavia, che l'incremento incondizionato di tale parametro non sempre corrisponde ad un aumento della qualità: infatti, effettuando un procedimento di denoising molto aggressivo, si otterrebbe facilmente un notevole incremento del SNR, rischiando però la degenerazione dei segnali a basso livello e vanificando il procedimento effettuato. Esistono molti modi di classificare gli algoritmi di soppressione del rumore. Ad esempio, possiamo distinguere tra le tipologie sviluppate per mezzo di un sistema di rivelazione multisensore o a singolo sensore. Inoltre, possono venir prese in considerazione le proprietà spaziali sia delle sorgenti di segnale che di rumore, come nel caso di adozione di un sistema microfonico atto ad enfatizzare il suono proveniente da una particolare direzione. Un ulteriore esempio è dato dalla cancellazione adattiva del rumore (ANC), approccio che necessita di due canali audio: il primario, in cui transitano il segnale utile ed il disturbo insieme, 42 ed il secondario, in cui è portato solo il rumore. Il rumore nel secondario deve presentare la proprietà di correlazione col rumore nel primario. Altre metodologie di soppressione, invece, tentano di sfruttare il meccanismo stesso coinvolto nella produzione del segnale utile o del rumore: un tipico caso è quello delle tecniche di riconoscimento vocale, in cui ciò è tipicamente realizzato attraverso un’operazione di predizione lineare del “parlato”; viceversa, nelle tecniche di riconoscimento sonoro, poiché il segnale è troppo generico per essere modellato, si agisce sul rumore. I sistemi di soppressione del rumore possono presentarsi come moduli separati rispetto ai sistemi che hanno come ingresso il segnale vocale oppure sono integrati in questi ultimi. Queste tipologie spesso presentano i difetti o di non proporre un sufficiente rapporto di soppressione (bassa quantità di rumore soppresso) oppure non prendono in considerazione criteri soggettivi. La performance del sistema di soppressione del rumore viene a dipendere, così, fortemente dall’accuratezza e robustezza del sistema. 43 3.3 Background storico Per quanto riguarda il concetto di denoising, siamo a conoscenza di svariati approcci, dato che la letteratura specializzata ci mette a disposizione una grande varietà di tecniche ed algoritmi dedicati alla soppressione del rumore: Lim e Oppenheim nella loro opera ne offrono un’ampia e completa elencazione e trattazione. I software commerciali di riduzione del rumore adattano tecniche in frequenza, sviluppate negli anni ‘60 e ’70 per l’elaborazione e la trasmissione del parlato. Nel complesso, si può affermare che essi possono essere classificati come sistemi di soppressione basati sulla teoria del filtro di Wiener e come sistemi di compensazione che sfruttano algoritmi di adattamento. Nel primo caso, per la realizzazione del sistema è utilizzato un solo ingresso contenente il segnale vocale (parte utile) + il rumore (da eliminare), mentre per l’implementazione del secondo sono richiesti uno o più canali di riferimento con sorgenti di rumore correlate e con assenza di componenti “utili”. Volendo dare una classificazione dei metodi esistenti in base all’analisi sul segnale prelevato, li distinguiamo in: Ø Metodi con stime di potenza. Ø Metodi con stime di Wiener. Ø Metodi con stime di grandezza Ø Metodi con stime di minimo errore quadratico medio 44 3.4 Il Mitico Beneficio dei Nulli Adattivi Da ormai parecchi anni alcuni produttori di apparecchi acustici hanno preso la decisione di trarre vantaggio dalla possibilità di controllare il ritardo interno ai microfoni e di rappresentare il diagramma polare risultante per i sistemi direzionali. Sostengono che lo spostamento del nullo del diagramma polare verso la sorgente rumorosa (o jammer), dovrebbe massimizzare la riduzione dell’energia del rumore e disturbo in generale. Teoricamente, con un jammer (altoparlante che genera rumore) posizionato direttamente nella zona posteriore, la migliore cancellazione del rumore dovrebbe avvenire in conseguenza dell’utilizzo di un diagramma di tipo cardiode; con un jammer posizionato di lato, invece, un diagramma bidirezionale dovrebbe risultare più efficace. Inoltre, di particolare rilievo per la seguente discussione, con un jammer che genera un rumore diffuso, il diagramma polare del tipo supercardioide sarà sempre la migliore soluzione, in quanto si ha il più alto DI. Per definizione, DI quantifica l’efficacia di un microfono direzionale in un ambiente con rumore diffuso. Variando il ritardo interno tra i microfoni posteriore ed anteriore, il Processore Digitale del Segnale (DSP) può variare il diagramma polare adattivamente da cardioide a supercardioide a bidirezionale, ricercando la migliore configurazione che garantisce la più grande riduzione del segnale. In teoria, sceglierà diversi diagrammi polari in relazione alla posizione della sorgente rumorosa. Benché, in apparenza, l’idea dei diagrammi 45 polari adattivi risulti affascinante, valutando attentamente le problematiche acustiche del mondo reale sorgono spontanee due obiezioni riguardo l’effettiva efficacia. Primo, è raro imbattersi in un ambiente acustico in cui sia presente soltanto un jammer. Nella realtà, la maggior parte delle situazioni in cui si verificano difficoltà di comprensione per coloro che indossano protesi acustiche, presenta un numero elevato di fonti di rumore, basti pensare a feste, ristoranti, ecc. In secondo luogo, pur trovandoci in presenza di un solo jammer, il segnale che proviene da esso è soggetto alle leggi fondamentali della fisica acustica ed in particolare alla riflessione e di conseguenza all’effetto della Distanza Critica. La distanza critica è quella distanza dalla sorgente alla quale il campo sonoro diretto assume lo steso valore del campo sonoro riverberante. DC = q × S ×a 16p Q indica il Il fattore di direttività a valore medio del coefficiente di assorbimento S Superficie della sorgente sonora Si scopre che la distanza critica dipende dal grado di assorbimento dell’ambiente, dalla sua superficie complessiva e dalla direttività e direzione dell’altoparlante Se ci si trova entro la distanza critica dalla sorgente allora il suono diretto risulta chiaro e nitido a differenza del suono riverberante che risulta confuso. In ambienti in cui bisogna prestare particolare attenzione a ciò che viene detto è bene dunque che l’ascoltatore venga posizionato entro la distanza critica. 46 In qualsiasi ambiente acustico chiuso (basta anche la presenza di un muro), un segnale incontra ostacoli che creano riflessi. Questi ultimi, insieme ai segnali originali danno vita ad un campo sonoro altamente omogeneo. Il segnale risultante in ogni punto è dunque la somma del segnale originale più tutti i riflessi relativi ad esso. Inoltre, in quest’ultimo caso, la posizione della sorgente diventa piuttosto trascurabile, in quanto il segnale proviene da più direzioni contemporaneamente. E’ a questo punto che l’idea dei nulli adattativi in parte fallisce, poiché un esame accurato mostra che le ricerche a supporto della teoria dei nulli adattativi adoperano jammers vicini all’ascoltatore, propriamente ad una distanza minore della D C per la stanza in cui le misure sono state eseguite (Ricketts e Henry, 2002). E’ solo in queste situazioni artificiose e ricostruite, in cui grazie alle posizioni del jammer, il campo del suono diretto domina il segnale in arrivo all’orecchio del portatore di protesi e il sistema dei nulli adattativi dimostra il massimo beneficio. Quando i jammers sono posizionati ad una distanza maggiore della D C , dunque in un ambiente sonoro più simile a quelli che normalmente si incontrano nel mondo reale, il rumore giunge all’orecchio da più sorgenti, dovute a riflessioni nella stanza. In questi casi la migliore soluzione è sempre un diagramma polare diffuso di tipo supercardioide o ipercardioide (Trine,2004,2005; Bentler, 2004; Woods e Trine, 2004; Yanz, 2006). Poiché la maggior parte delle stanze, o ambienti chiusi in generale, ha una D C dell’ordine di un metro, è ovvio che la maggior parte dei jammers nel mondo reale si trovano ad una 47 distanza maggiore di D C . In altre parole, quando si incontrano difficoltà a causa del rumore in un ristorante, è inverosimile che ci sia soltanto una sorgente rumorosa e ancora più improbabile che essa sia collocata ad un metro dalla testa di colui che indossa protesi acustiche. Woods e Trine (2004) hanno mostrato che negli ambienti che comunemente si incontrano nel mondo reale, in cui il jammer è situato oltre la D C , un diagramma polare diffuso di tipo supercardioide o ipercardioide, è in ogni caso la migliore soluzione direzionale. 48 3.5 La sottrazione spettrale Fig. n. 12 Schema a blocchi di processo di analisi di segnale vocale tramite stima di spettro Il fine ultimo dell’utilizzo della tecnica consiste nel migliorare la qualità del segnale prelevato dal canale audio e nell’ottenimento di un rapporto segnale/rumore che risulti il più vantaggioso possibile. Il metodo della sottrazione spettrale, utilizzato per la riduzione del rumore additivo da una sequenza, è basato sulla sottrazione dello spettro di potenza stimato del rumore da quello del segnale rumoroso. È stato sviluppato per ridurre il rumore additivo da un segnale vocale (Short Time Spectral Subtraction) ed è stato in seguito esteso anche alle immagini (Short Space Spectral Subtraction): in questo caso si parla di “Short Time” perchè il filtraggio va eseguito a blocchi. Tale tecnica rappresenta la metodologia più comune per la reiezione dei disturbi audio: nel corso degli ultimi decenni, infatti, ne sono state sviluppate differenti varianti. Il “cuore” dell’algoritmo (comune a tutte le implementazioni) resta ad ogni modo sempre rappresentato dalla stima della potenza spettrale del rumore 49 insieme ad una determinata regola di sottrazione, che si traduce in una relazione matematica tra i valori di SNR in ciascuna porzione di banda considerata ed un fattore di peso spettrale, in modo tale che le “sottobande” che presentano bassi valori di SNR subiscano il “processing”, lasciando invece inalterate le restanti (che sono tali da presentare alti valori nel rapporto segnale/rumore). Uno dei primi ad illustrare nel dettaglio tale metodologia fu Boll, nei suoi studi risalenti alla fine degli anni ’70 (1979, per la precisione) partendo dalle basi delle sue teorie, trattazioni successive hanno esteso e generalizzato la tecnica, portando a più ampie conoscenze anche riguardo al filtraggio di Wiener e ai processi di stima basati sul principio di massima verosimiglianza. Ricordiamo, per semplicità e brevità di trattazione, come, nel caso di rumore stazionario, sia sufficiente sottrarre il termine dato dal valore medio statistico per ottenere una stima di tipo “Least Mean Spuares” sello spettro di potenza: Il più grande pregio della tecnica di sottrazione spettrale risiede quindi nella sua semplicità e nel fatto che tutto ciò che si richiede alla sua applicabilità è una stima di valor medio, senza necessità di particolari assunzioni sul segnale. 50 3.6 L’algoritmo MMSE Gli algoritmi adattivi ben si prestano ad applicazioni di controllo attivo del rumore, sia in termini di prestazioni, e quindi di abbattimento del rumore e di stabilità, sia in termini di costo progettuale. Per quanto concerne le architetture del sistema di controllo, nasce l’esigenza di utilizzare due sensori microfonici, allo scopo di migliorarne l’efficacia. Un algoritmo di soppressione di tipo MMSE, che prende in esame il minimo valore quadratico medio, sfrutta le proprietà statistiche dello spettro dei segnali in esame, permettendo di ottenere un set di pesi che minimizzano l’errore quadratico medio tra il segnale che si desidera ricevere e una sua stima. Tali coefficienti di peso risulteranno in stretta relazione con la potenza del segnale desiderato e la matrice di covarianza contenente il contributo del singolo segnale e dei rumore. 51 L’algoritmo di soppressione permette buona qualità vocale risultante, e per ampi range di SNR. Lo schema a blocchi riportato (nella figura 13) mostra i processi necessari all’implementazione di tale tecnica: Fig. n. 13 Schema a blocchi che realizza l'algoritmo MMSE 52 CAPITOLO IV DESCRIZIONE DELLA PARTE SPERIMENTALE E DEL SISTEMA 4.1 Descrizione del sistema Per la sperimentazione è stato utilizzato un sistema formato da un manichino che riproduce le sembianze del busto di un corpo umano medio e da un computer gestito da un software (VIPER) che consente sia l’acquisizione dei segnali sonori sia l’elaborazione e l’estrazione di numerosi parametri psicoacustici che permettono di determinare la qualità del suono. Fig. n. 14 – Binaural recording head manikin and measuring microphones Mk1 La figura 14 mostra in maniera schematica la struttura del sistema. Il manichino riproduce abbastanza fedelmente le 53 caratteristiche della parte superiore del corpo umano. In particolare la testa, i padiglioni auricolari, il collo e le spalle. Tale manichino consente di inclinare la testa rispetto al busto e l’intero busto rispetto al piano. Nelle due orecchie in sostituzione della membrana timpanica sono situati due microfoni di precisione da ½ di pollice che simulano l’orecchio medio ed interno. Il manichino è alimentato sia con batterie che tramite rete. Inoltre è possibile mediante un telecomando controllare le funzionalità previste per l’acquisizione a distanza. Il manichino poggia su di un supporto che contiene sia il sistema di polarizzazione dei microfoni sia l’elettronica di amplificazione dei segnali. Inoltre nella base è contenuto un DAT per la registrazione dei segnali, in questa maniera è possibile fare delle acquisizioni prescindendo dal computer. I segnali possono essere acquisiti da un computer mediante un opportuno software denominato VIPER Questo consente sia di acquisire che di elaborare i segnali sonori provenienti dal manichino. Il VIPER comprende i moduli: Ø Sound Analysis Package VIPER BA Questo modulo permette di registrare e riprodurre I segnali sonori; eseguire la determinazione dei livelli sonori e l’analisi spettrale (terzi di ottave ed FFT); filtraggio del segnale; analisi tonale. 54 . Ø PerceptualXplorer VIPER PX Con questo modulo è possibile analizzare e modificare le componenti tonali del segnale mediante un editor ed inoltre risintetizzare I segnali sonori modificati. Ø Psychoacoustics Analysis VIPER PSY Il modulo permette di determinare alcuni dei principali parametric psicoacustici legati alla percezione del suono quali: loudness, sharpness, roughness, fluctuation strength, tonality. Ø Sound Editor and Filter Software VIPER ED È un editor sonoro evoluto che permette di effettuare numerose trasformazioni del segnale nel tempo quali: cut, copy, paste, change, trim, fade-in/fade-out, change level, hearing-based play back, sample rate converter, import/export of sound files etc. permette di implementare numerosi tipi di filtri numerici Inoltre permette di eseguire delle trasformazioni del segnale direttamente sullo spettrogramma permettendo di modificare parti del sonogramma. I segnali così modificati possono essere riprodotti. 55 Ø Speech Quality-Analysis VIPER SQ Questo modulo agendo sullo spettrogramma permette di valutare indici quali l’Auditory Distance Spectrogram che permettono di quantificare la qualità del parlato. E’ possibile la taratura dell’intera catena di acquisizione mediante dei calibratori. Questo modulo agendo sullo spettrogramma permette di valutare indici quali l’Auditory Distance Spectrogram che permettono di quantificare la qualità del parlato. E’ possibile la taratura dell’intera catena di acquisizione mediante dei calibratori. 56 4.2 Protesi acustica utilizzata nei test La protesi acustica utilizzata durante i test è la Destiny 400 Dir BTE della casa produttrice Starkey, dotata di 8 bande, 4 canali, 4 memorie, una bobina ad induzione ed un rilevatore della direzionalità del parlato. Features: Le caratteristiche standard del Destiny 400 Dir della Starkey sono: OSPL 90: 135 dB Guadagno di Picco: 70 dB Gamma frequenziale 200 – 6400 hz Distorsione armonica: a 500 hz è 3 %, a 800 hz è 1 %, a 1600 hz è1% Rumore d’ingresso equivalente a 25 dB Tempo d’attacco < 25 ms e tempo di rilascio < 200 ms Ø L’Active Feedback Intercept (AFI) Un il sistema di eliminazione di rumori che elimina in tempo reale i fastidi acustici in modo che nessun suono artificiale irritante venga percepito. 57 Ø L’Environmental Adaptation E’ un sistema avanzato con soppressione di rumore che automaticamente controlla e classifica le diverse tipologie di rumori ambientali. Ø Directional Speech Detector (DSD) Rivelatore direzionale di discorso (DSD) che continuamente controlla i livelli in decibel negli ambienti rumorosi e registra la relativa zona di ricezione. Ø Autocoil Bobina telefonica programmabile disponibile negli apparecchi con multimemoria senza l'esigenza della commutazione manuale. 58 4.3 Fast Fourier Transform – FFT La trasformata di Fourier veloce (spesso indicata come FFT, dall'inglese Fast Fourier Transform) è un algoritmo ottimizzato per calcolare la trasformata di Fourier discreta (detta DFT) per q = 0, 1, ..., N-1 e la sua inversa. La FFT è di grande importanza per una grande varietà di applicazioni, dall'elaborazione di segnali digitali, alla soluzione di equazioni differenziali alle derivate parziali, agli algoritmi per moltiplicare numeri interi di grandi dimensioni. Nel XVIII secolo il matematico e fisico francese Jean Baptiste Joseph Fourier elaborò un modello matematico noto appunto come Analisi di Fourier. Tale metodo si basa su principio generale che ogni onda periodica complessa può essere scomposta e analizzata come una serie di onde periodiche semplici. Queste componenti semplici dell’onda periodica complessa vengono dette armoniche del segnale complesso e il loro insieme è chiamato spettro. Un postulato molto importante dell’analisi di Fourier è che le frequenze delle armoniche sono i multipli interi della frequenza del segnale complesso. La frequenza della prima armonica, che per definizione è uguale a quella del segnale complesso,è chiamata frequenza fondamentale (F0 ). 59 La base della FFT, allora, è il fatto che ogni segnale può essere scomposto in una serie di sinusoidi, ciascuna delle quali possiede una ben determinata frequenza, ampiezza e fase (teorema di Fourier). Bisogna notare che la trasformata di Fourier non è l'unica esistente. Esistono altre trasformate in grado di scomporre un segnale in una serie di componenti dello stesso tipo. Quella di Walsh, per esempio, scompone un segnale in una serie di onde quadre e presenta dei vantaggi dal punto di vista della sintesi (le onde quadre sono molto più facili da generare rispetto alle sinusoidi). La trasformata di Fourier, però, evidenzia alcune caratteristiche interessanti: Ø Gli elementi base della scomposizione (le sinusoidi) sono onde prive di armonici. Possono quindi essere considerate come "i mattoni" mediante la cui somma si crea un suono complesso. Ø In effetti, questa proprietà è verificabile in quanto, sommando le suddette sinusoidi, si ottiene il suono di partenza. Ø È vero che la stessa cosa accadrebbe anche sommando le onde generate da una qualsiasi altra trasformata, ma la scomposizione basata su Fourier ha una maggiore evidenza percettiva. È più facile farsi una immagine di un suono come somma di elementi percettivamente semplici, come le sinusoidi, rispetto alla somma di elementi complessi. Con la FFT, quindi, possiamo analizzare lo spettro di un suono e vedere le sue componenti, siano esse armoniche o meno, passando dalla visione della forma d'onda, con il tempo sull'asse X, alla visione in frequenza (frequenze sull'asse X). Proprio per questo è corretto 60 dire che, con la FFT, si passa dal dominio del tempo a quello della frequenza. Il principale parametro di controllo della FFT è la sua risoluzione che è determinata dal numero di campioni (detti "punti") su cui viene effettuata. Come si vede dalla figura seguente, le componenti (o parziali) della nota di pianoforte di cui sopra sono via via più evidenti con l'aumentare del numero di punti. Naturalmente un maggior numero di punti significa anche un maggior tempo di calcolo. Fig. n. 15 - Le componenti della nota di pianoforte che con l'aumentare del numero di punti sono più evidenziate 61 Si ha, quindi, un passaggio dal dominio del tempo a quello delle frequenze. Come tale, però, la FFT è una analisi istantanea che vale solamente in quel punto del suono. Dato che il suono è in evoluzione, potete considerare una singola FFT come un fotogramma di un film. Dal punto di vista matematico la FFT è un procedimento che esprime una funzione come somma di sinusoidi. Dal punto di vista acustico può benissimo essere vista come un più semplice e comprensibile banco di filtri che suddivide l'intero spazio delle frequenze da 0 a SR/2 in tante bande quanti sono i punti diviso. Una FFT a 1024 punti, quindi, equivale a suddividere il campo frequenziale in 512 bande. Si può quindi considerare la FFT come un sistema che misura l'energia contenuta in ognuna di queste bande. Se, per es., si lavora con 2048 punti, è come se si dividesse l'intero spazio frequenziale fra 0 e SR/2 in 2048 / 2 = 1024 parti. Di conseguenza, con SR = 44100, ogni banda sarebbe larga mediamente circa 22050 / 1024 = 21.53 Hz. Vedendo la cosa in questo modo, si capisce anche perché la risoluzione in frequenza aumenta con il numero dei punti e quindi anche perché, nella figura qui sopra, con 256 punti non si isolano le componenti. 22050 / 128 = circa 172 Hz, che è troppo per isolare delle singole sinusoidi. La situazione migliora con 512 punti (risoluzione circa 86 Hz), è buona con 2048 (ris. circa 22 Hz) e ottima con 16384 punti (ris. circa 2.69 Hz). 62 La seconda cosa da ricordare è che, come già detto, l'analisi è istantanea e vale, cioè, solo per l'istante in cui è stata effettuata. Il punto di analisi è quello mediano rispetto al segmento analizzato. Se abbiamo un suono con S/R = 44100 e facciamo una analisi su 4096 punti che a 44100 corrispondono quasi a 1/10 di sec., l'istante a cui l'analisi si riferisce è il centro di quei 4096 campioni. Prima e dopo, il suono potrebbe essere diverso. È quindi errato fare una analisi e pensare "in questo suono troviamo queste componenti". Il concetto esatto è "in questo suono, in questo istante, troviamo queste componenti". In effetti, il segmento su cui si fa l'analisi viene dapprima isolato e poi moltiplicato per un inviluppo a forma di campana (con il massimo al centro) e trasformato come nella figura a fianco. Questo per evitare che il troncamento alle estremità influenzi il risultato. L'effetto della finestra è quello di dare un peso maggiore al centro del segmento e mostrare lo spettro con maggiore pulizia. 63 Esistono vari tipi di finestre (Hamming, Blackmann, etc) che si differenziano per la pendenza e la forma dei lati, il cui effetto su frequenza e ampiezza è ridotto, ma è più evidente sulla fase delle componenti risultanti, quindi per il momento lo possiamo ignorare. Normalmente si usano finestre di Hamming o Blackmann. 64 4.4 Sonogramma e Spettrogramma Ora il nostro problema è: se la FFT è istantanea, come si può creare una mappa completa dell'evoluzione di un suono nel tempo? La risposta è semplice: per poter ottenere una tale mappa, occorre fare una serie di singole analisi a intervalli regolari per tutta la durata dell'evento sonoro. Otteniamo così un sonogramma in cui abbiamo il tempo sull'asse X, le frequenze sull'asse Y e ogni componente è rappresentata da una linea che si estende nel tempo, il cui colore è tanto più forte quanto è maggiore l'ampiezza. Poiché la rappresentazione è sul piano, mentre le dimensioni da rappresentare sono 3 (frequenze, tempo e ampiezza), per la terza si deve ricorrere al colore. Lo schema dei colori può essere diverso, ma l'importante è che sia in grado di evidenziare le differenze di ampiezza creando con lo sfondo un contrasto tanto maggiore quanto più l'ampiezza è elevata. Fig. n. 14 - Il Nell'immagine vengono rappresentati il sonogramma e lo spettrogramma 65 Con lo stesso procedimento si può ottenere uno spettrogramma. Si tratta di una rappresentazione 3D in cui abbiamo ancora le frequenze sull'asse X, il tempo sull'asse Y, mentre le ampiezze sono rappresentate come altezze sull'asse Z. In tal modo è possibile distinguere chiaramente anche l'inviluppo dei singoli armonici. Ovviamente in quest'ultimo caso la colorazione è accessoria e non del tutto necessaria, però. se è sensata, aiuta, così come aiuta il fatto che lo spettrogramma possa essere ruotato e studiato da diverse prospettive. Nel caso del sonogramma, dobbiamo anche tener conto della velocità con cui il suono cambia nel tempo. I suoni emessi dagli strumenti musicali variano abbastanza lentamente e con una certa gradualità, tranne che nel momento dell'attacco in cui possono esserci anche variazioni molto veloci (i cosiddetti "transitori" o "transienti"). In natura, però, possiamo trovare anche suoni che, nel corso della loro vita, esibiscono variazioni molto complesse e veloci. In tal caso, a volte, la ricerca di una maggiore risoluzione in frequenza, aumentando il numero dei punti e quindi la lunghezza del segmento su cui si fa l'analisi, può contrastare con la visione di variazioni temporali troppo veloci. La risoluzione in frequenza contrasta con la risoluzione temporale. 66 Ragioniamo: se ho un suono campionato a 44100 e la mia finestra di analisi è lunga 16384 punti, essa dura 16384 / 44100 = 0.37 secondi, il che significa che ogni variazione che dura meno ha buone probabilità di risultare malamente definita in senso temporale. La cosa è mitigata solo dal fatto che, nella serie di analisi per creare il sonogramma, le finestre delle varie analisi vengono parzialmente sovrapposte. Comunque, in questi casi, una FFT con pochi punti seguirà meglio il fenomeno rispetto a una con più punti, anche se quest'ultima produce risultati più definiti in frequenza. 67 CAPITOLO V PARTE SPERIMENTALE 5.1 Descrizione dei test effettuati Per testare l’affidabilità dei sistemi di abbattimento del rumore delle protesi digitali è stata realizzata una batteria di tests che prevedono l’utilizzo di una protesi digitale (Destiny 400) e il sistema Viper. I test prevedono di effettuare l’audiometria vocale sia in ambiente silente sia in competizione utilizzando come segnale di competizione il Bubble Noise a due intensità (60 dB e 65 dB). Il test è stato effettuato nell’audiometria sperimentale dell’Unità di Audiologia dell’Università Federico II di Napoli nella quale la soglia di intellezione ai due livelli di competizione è rispettivamente 40 dB HTL e 45 dB HTL. 68 0° 300° 60° 180° 69 Di seguito sono riportati i grafici del segnale acquisito senza le protesi acustiche. Senza protesi e senza rumore 70 Con protesi e senza rumore 71 Senza protesi con rumore a 60 dB Molti Stanza Grande Giallo Lire Fig. n. 16 - Nel grafico rappresentante il livello energetico, sono riportati i valori ottenuti dalla sperimentazione senza protesi con rumore di competizione a 60 dB. Le aree contornate in rosso esprimono le parole utilizzate durante il test vocale. I cinque spike, come si evince dal grafico del livello energetico, sono stati individuati a 4000 ms – 8000 ms – 13000 ms – 18000 ms e 23000 ms e corrispondono alle cinque parole utilizzate durante il test:: molti, stanza, grande, giallo e lire. 72 Stanza Grande Giallo Lire Fig. n. 17 - Spettrogramma riferito al test vocale senza protesi con rumore di competizione a 60 dB. Le aree in giallo posizionate al di sopra i picchi della trasformata di Fourier rappresentano gli spike della parola Osservando la FFT del segnale senza protesi e in ambiente rumoroso (60 dB) si osserva un rumore di disturbo sulle alte frequenze (7.000 e 10.000 Hz.). Tale rumore è da addebitare alla presenza della ventola di aspirazione presente ed attiva nella stanza al momento del test. È da notare che il segnale di competizione, essendo rappresentato dal buble noise, maschera completamente il segnale parlato. 73 Con protesi a 60 db di rumore Molti Grande Stanza Giallo Lire Dal grafico si nota subito la presenza del rumore che però non inficia sul riconoscimento della parola. Di fatti i picchi rappresentanti la parola appaiono comunque bel conservati mentre il rumore nettamente attutito. 74 In basso invece possiamo notare la differenza di performance della protesi in presenza ed assenza di rumore di competizione dove i picchi appaio chiaramente nitidi e privi di fastidi dovuti al rumore. Fig. n. 18 Grafico che mostra il test effettuato con protesi e senza rumore di competizione 75 Stanza Grande Giallo Lire Fig. n. 19 Lo spettrogramma mostra l'uscita della protesi in condizioni di rumore a 60 dB La figura mostra l’uscita della protesi nelle condizioni rumorose con competizione a 60 dB. Lo spettrogramma evidenzia un abbattimento del rumore ed osservando il grafico dell’andamento dell’intensità in funzione del tempo si osserva come le parole sono esaltate rispetto al rumore di fondo mantenendo in maniera discreta il rapporto di compressione del linguaggio. 76 Aumentando l’intensità del segnale di competizione si osserva, dalle figure seguenti, un grosso abbattimento del rumore che si ripercuote sul riconoscimento del parlato. Infatti osservando lo spettrogramma si nota un abbattimento, troppo spinto, sulle basse frequenze rendendo il riconoscimento del linguaggio più difficoltoso. 77 Senza protesi e con protesi a 65 dB di rumore Aumentando l’intensità del segnale di competizione si osserva, dalle figure seguenti, un grosso abbattimento del rumore che si ripercuote sul riconoscimento delle parole. Infatti osservando lo spettrogramma si nota un abbattimento, troppo spinto, sulle basse frequenze rendendo il riconoscimento del linguaggio più difficoltoso Molti Stanza Grande Giallo Lire Fig. n. 20 Grafico del livello energetico che mostra il test effettuato senza protesi e con rumore di competizione a 65 dB 78 SENZA PROTESI Grande CON PROTESI Lire Giallo 79 Lire CONCLUSIONI Le protesi acustiche presentano i sistemi di abbattimento dei rumori come ottimi algoritmi di elaborazioni che permettono di esaltare il linguaggio in un ambiente rumoroso. Dai risultati della sperimentazione si è osservato, oggettivamente, un’esaltazione del linguaggio in ambiente rumoroso di 60 dB. Aumentando il rumore a 65 dB ed aumentando corrispondentemente il livello del segnale parlato, i sistemi iniziano a diminuire le proprie performance. Infatti i risultati presentano un abbattimento troppo marcato alle basse frequenze che pregiudicano, probabilmente, la comprensione del linguaggio in un soggetto protesizzato. Dall’analisi effettuata si può affermare che effettivamente i sistemi di abbattimento hanno raggiunto un buon livello, tanto da migliorare la resa delle protesi in ambienti rumorosi. Nello stesso tempo, la sperimentazione dimostra che aumentando il rumore si pregiudica l’affidabilità dei suddetti sistemi che si traduce in un peggioramento della comprensione da parte del soggetto protesizzato. 80 BIBLIOGRAFIA · Ing. Andrea Trucco (2004) DIBE – “Calcolo numerico per utilizzare i residui di udito”. Convegno: “insieme nel mondo dei suoni" Rozzano (Mi) · Ing. Michele Ricchetti (2004) Linear – “Le protesi di V generazione”. Convegno: Convegno: “Insieme nel mondo dei suoni" Rozzano (Mi) · Kaufman KR, Brey RH, Chou LS, Rabatin A, Brown AW, Basford JR. “Comparison of subjective and objective measurements of balance disorders following traumatic brain injury”. Med Eng Phys 2006 Apr; 28(3):234-9 · Nielsen HB, Ludvigsen C (1978) “Effetct of hearing aids with directional microphones in different acoustic”. Scand Audiol 217-24. · Michael Valente, Carl C. Crandell, M. Samantha Lewis and Jane Enrietto (2003). “Improving Speech Recognition in Noise: Directional Microphone and FM Systems”. The Hearing Journal. · Amlani, A. (2001). “Efficacy of directional microphone hearing aids: A meta-analytic perspective”. Journal of the American Academy of Audiology 12(4): 202–214. · Kochkin S (1996). “Customer satisfaction and subjective benefit with highperformance hearing instruments”. Hearing Review 3(12): 16-26. · Fabry, D. (1994). “Noise reduction with FM systems in FM/EM mode”. Ear and Hearing 15: 82–86. 81 · Souza PE (2002). Effects of compression on Speech Acoustics, Intelligibility, and Sound Quality. Trends in Amplification 6(4): 131-165. · Todd Ricketts, Anne Marie Tharpe, Vanderbilt Bill Wilkerson Center (2005) - Journal of Rehabilitation Research & Development. Directional Microphone Technology for Children. Volume 42, Number 4, Pages 133– 144 82 SITOGRAFIA http://www.phonak.com http://www.endoacustica.com/microfoni_direzionali.htm http://www.cnr.it http://www.audiosonica.com/it/ http://www.aevo.org/web/leggi.htm http://www.centrodellequilibrio.it/index.htm http://www.protesiacustiche.com/ http://www.audioprotesisti.tk http://www.cdila.it/sordit%C3%A0/2PROTESI.htm http://www.soundlite.it/articoli/2002/genn/noselli.htm http://www.akg-acoustics.com/site/powerslave,id,1,nodeid,1,_language ,EN,country,EN.html http://www.terratec.it/supporto/guide42.shtml http://www.eclectic-web.co.uk/mike/electret_a.htm http://www.sordita.it http://www.starkey.it http://www.amplifon.it http://lesim1.ing.unisannio.it/LaboratorioOnLine/DSP/DSP.htm 83