articolo - Parlaritaliano
Transcript
articolo - Parlaritaliano
UN SISTEMA AUTOMATICO PER LA CARATTERIZZAZIONE DEGLI SPEAKER IN FLUSSI MULTIMEDIALI Leandro D’Anna1, Gennaro Percannella1, Carlo Sansone2, Mario Vento1 1 Dipartimento di Ingegneria dell’Informazione e Ingegneria Elettrica, Università degli Studi di Salerno; 2Dipartimento di Informatica e Sistemistica, Università degli Studi di Napoli “Federico II” [email protected], [email protected], [email protected], [email protected] 1. SOMMARIO Il problema dell’individuazione, nella sola parte audio, della presenza di un solo speaker o di un insieme di più speaker in flussi multimediali di tipo news broadcasting è parte della più ampia classe di problemi legata alla speaker identification. Nel corso degli anni, molte sono state le grandezze analizzate, sia nel tempo che in frequenza, e le tecniche automatiche elaborate per caratterizzare univocamente un singolo speaker. Tutte si possono suddividere in due grandi metodologie: una basata sulla sola analisi della parte audio, l’altra con un approccio integrato audio-video. La prima metodologia si rivela molto complessa da applicare ai flussi multimediali di tipo news broadcast. Infatti all’interno delle stesse non esiste omogeneità da un punto di vista acustico in quanto si alterna, ad esempio, audio in ambiente controllato, quale quello da studio, con audio non controllato, quale quello da inviati esterni. Inoltre tale metodologia non è idonea per sistemi che debbano lavorare in tempo quasi reale. La seconda metodologia, invece, appare essere più promettente in quanto si basa sugli accurati risultati ottenuti dall’analisi video. Quest’ultima, infatti, individuando la porzione del flusso multimediale in cui è presente lo speaker, permette di isolare con un’ ottima accuratezza le porzioni di parlato da studio consentendo, poi, sia un’ analisi audio su porzioni omogenee da un punto di vista acustico e sia un’ analisi con porzioni di durata molto breve e quindi più idonee ad un sistema in tempo quasi reale. In questo lavoro, che nasce da un approccio integrato audio-video, viene descritto un esperimento per valutare quanto il solo parametro frequenza fondamentale sia discriminante rispetto alla presenza o meno di due speaker nel flusso audio corrispondente ad un insieme di shot video in cui viene individuata la presenza di uno speaker generico sulla base di sole informazioni video. Nell’esperimento vengono utilizzati vari algoritmi standard per l’estrazione della f0 e viene utilizzato un semplice criterio a soglie per attenuare sia gli errori di raddoppiamento e sia gli errori di dimezzamento caratteristici di ogni algoritmo per l’estrazione della f0. La tecnica proposta si basa sull’individuazione di una opportuna distribuzione statistica per la f0 mediante un algoritmo di Maximum Likelihood Estimation (MLE) e sull’utilizzo di un criterio di similarità statistico basato sul test di ipotesi di Kolmorogov-Smirnov. Il corpus utilizzato nell’esperimento è costituito da 18 telegiornali italiani in cui a volte sono presenti due speaker e a volte uno solo. 2. INTRODUZIONE L’anchor shot detection è il problema di individuare gli speaker in maniera non ambigua all’interno di un telegiornale allo scopo di realizzare una segmentazione degli shot in anchor shot e news report shot. I primi sono caratterizzati dalla presenza dello speaker da studio mentre i secondi sono costituiti da servizi e commentatori esterni (vedi figura 1). 718 Tutto questo è il primo passo di un sistema più generale per affrontare il problema della classificazione e dell’indicizzazione di notizie dei telegiornali. Un filmato di telegiornale, inteso come dominio di indagine, ha come fonti di informazioni la traccia video e la traccia audio. In letteratura sono stati sviluppati tre approcci per la risoluzione di questo problema. N-th News story Anchor shot News-report shot (N+1)-th News story Anchor shot News-report shot (N+2)-th News story Anchor shot News-report shot Figura 1 Esempio di suddivisione in anchor shot e news report. Il primo approccio prevede l’utilizzo della sola informazione video per l’individuazione degli anchor shot (Huang et al., 2000; O’ Connor et al., 2001; Chen et al., 2003). Questo approccio, oramai in via di abbandono, prevede l’individuazione dell’anchor sulla sola base di informazioni legate allo sfondo da studio e al volto dello speaker ad esempio e su considerazioni di frequenza d’occorrenza sui valori di vettori di determinate feature video. Il grosso limite è dato dai casi in cui lo speaker commenta una notizia e non è inquadrato o nel caso in cui una determinata inquadratura dello speaker occorre di rado (al limite una volta) nel corso del telegiornale. In questi casi un sistema basato solo sulla informazione video non riesce ad effettuare l’anchor shot detection in maniera corretta. Il secondo approccio è quello che prevede l’utilizzo della sola informazione audio utilizzando molte delle features e delle tecniche utilizzate anche nell’ambito della speaker identification (Delacourt & Wellekens, 2000; Wu et al., 2003; Meinedo & Neto, 2003; Huang & Hansen, 2004). Questo approccio, però, ha due grossi limiti. Il primo scaturisce dal fatto che non esiste una funzione universale in grado di modellare puntualmente uno speaker qualsiasi e nello stesso tempo si adatti a differenti condizioni acustiche tra un telegiornale ed un altro. Il secondo è dovuto al fatto che il metodo in sé tralascia completamente le informazioni video e in particolare al fatto che se un anchor shot è presente in video sarà sempre presente in audio (è estremamente improbabile che uno speaker sia solo inquadrato nello studio e non parli). Il terzo approccio, infine, prevede un utilizzo integrato delle due fonti informative in modo tale da sfruttare i punti di forza di ognuna di loro. In questo caso in letteratura abbiamo due metodologie per l’integrazione. La prima considera l’audio ed il video come fonti informative indipendenti. Ognuna di essi darà una suddivisione in anchor shot e news report e sarà compito dell’integrazione finale mettere assieme le due suddivisioni (Wang & Gao, 2002; Albiol et al., 2003; Hsu et al., 2004) operando delle scelte che in caso di disaccordo privilegeranno uno dei due canali. In questi casi, quindi, si otterrà una suddivisione che per essere univoca avrà caratteristiche di arbitrarietà. La seconda metodologia, invece, prevede un’integrazione a monte dell’analisi dei due canali informativi utilizzando le informazioni di un canale a supporto dell’altro (Liu & Huang, 1999; Li et al., 2002; Cao et al., 2003). In questo modo si ottiene un’unica suddivisione 719 concorde con le informazioni provenienti dai due canali a fronte di una certa complessità del sistema. Il sistema proposto in questo articolo utilizza un approccio integrato audio-video effettuando un’integrazione a monte delle due fonti informative. In realtà la nostra attenzione sarà rivolta alla sola parte audio tralasciando la descrizione della parte video già illustrata in De Santo et al. (2005). In particolare verrà illustrato un metodo per la caratterizzazione su base audio degli speaker e per l’individuazione del numero degli anchor di un telegiornale utilizzando sia le informazioni sugli shot provenienti dal canale video e sia la frequenza fondamentale vista come una grandezza idonea a caratterizzare uno speaker su una scala temporale a livello di shot video e quindi di tipo globale. Il corpus utilizzato nella sperimentazione del sistema in questione è costituito da un corpus di 18 telegiornali italiani in cui a volte sono presenti due speaker e a volte uno solo. 3. DESCRIZIONE DEL METODO Il problema di discriminare anchor shot differenti all’interno di un telegiornale utilizzando la traccia audio si basa sull’uso di features calcolate nel dominio del tempo (energia, frequenza fondamentale ) o nel dominio della frequenza (LPC, MFCC). Sotto questo punto di vista, la frequenza fondamentale, essendo legata alla frequenza di vibrazione delle pliche vocali, rappresenta una scelta naturale per la discriminazione degli speaker. Infatti in letteratura (Childers & Wu, 1990; Klatt & Klatt, 1990) è noto che la frequenza fondamentale delle donne è in media più alta di quella degli uomini e quindi questa feature si presterebbe in maniera immediata a distinguere le due classi. Nella pratica la capacità discriminante di questa feature è abbastanza soddisfacente per speaker di sesso differente, anche se vi possono essere uomini con voce più acuta o donne con voce più grave, e diminuisce drasticamente fino a diventare mediocre nel caso di speaker dello stesso sesso. In realtà il problema comune a tutte queste features del dominio audio è legato alla caratteristica di essere locali, ossia al fatto di essere calcolate su frame audio di qualche decina di millisecondi, e quindi di rappresentare, in maniera dettagliata, fenomeni legati più al contenuto fonico che allo speaker. L’informazione legata a quest’ultimo, quindi, risulta dispersa in un insieme abbastanza grande di valori e per questo di difficile estrazione. In letteratura (Delacourt & Wellekens, 2000; Wu et al., 2003; Meinedo & Neto, 2003; Huang & Hansen, 2004) un modo per aggirare questo limite si basa sull’utilizzo di tecniche di addestramento per ricavare o modelli a priori di speaker (UBM) da confrontare con lo speaker da discriminare o opportuni parametri da utilizzare in funzioni di similarità (BIC, DISTBIC) applicate ad insiemi crescenti di frame audio. Il nostro metodo si differenzia da questi ultimi approcci perché non intende usare nessuna forma di addestramento e quindi intende discriminare anchor differenti anche all’interno di un solo telegiornale. Allo scopo di ottenere questo risultato, occorre però cambiare approccio al calcolo delle feature prevedendo l’utilizzo di una scala di analisi temporale più grande che permetta di sfruttare la stabilità in media delle caratteristiche fisiologiche dello speaker. L’idea alla base del metodo nasce dalla considerazione che il parlato di uno speaker, su porzioni aventi una durata sufficientemente grande, è caratterizzato da una propria frequenza fondamentale media e da una sua varianza. In realtà a questa componente se ne aggiunge un’altra dovuta ad errori presenti nel processo di estrazione della f0. Quest’ultima componente, indipendentemente dall’algoritmo utilizzato per l’estrazione della f0, è caratterizzata da due tipologie di errore: gli errori di 720 raddoppiamento e gli errori di dimezzamento del valore effettivo della f0, con una maggiore prevalenza dei primi rispetto ai secondi a causa della vicinanza della prima formante. Quindi, in prima approssimazione, i valori della f0 si distribuiscono secondo una distribuzione che possiamo considerare essere una gaussiana (Carey et al., 1996): 1 pdf gaussian = σ 2π e 1 ⎛ x−μ ⎞ − ⎜⎜ ⎟ 2⎝ σ ⎠ (1) ma che in letteratura (Sonmez et al., 1997) alcuni hanno individuato più correttamente come una distribuzione lognormale per tener conto degli errori di raddoppiamento e di dimezzamento che tendono ad allungare le code: pdf log normal = 1 σ 2π e − 1 ln ( x − μ ) 2σ (2) Allo scopo di valutare quale distribuzione approssimi meglio la distribuzione della f0, nel nostro sistema abbiamo considerato anche come possibile distribuzione della f0 una distribuzione gamma: pdf gamma = ( x − μ ) γ −1 e − ( x − μ ) (3) Γ(γ ) una distribuzione log-logistica: ln T − μ e pdf log −log istic = σ σT (1 + e (4) ln T − μ σ ) 2 e una distribuzione gaussiana inversa (o di Wald): pdf inverse _ gaussian 3 ⎡ −β ⎜ ⎜ β = ⋅ x 2 e⎢ ⎝ 2π ⎢ ⎛ x−μ ⎞ ⎟ σ ⎠ ⎣ ⎤ ⎥ (5) ⎥⎦ Indipendentemente dalla distribuzione considerata, possiamo rappresentare i valori della f0 come nella figura 2 mentre nel caso di due speaker di sesso differenti si può pensare la distribuzione di f0 complessiva sia data dalla somma di due distribuzioni, ognuna caratteristica di un parlante, e che la distribuzione risultante non avrà le caratteristiche di quelle componenti (vedi figura 3). 721 Figura 2 Distribuzione dei valori della f0 in un telegiornale con uno speaker. Figura 3 Distribuzione dei valori della f0 in un telegiornale con due speaker. 722 Estrazione della f0 Calcolo curva stimata Eliminazione parti unvoiced Confronto curva f0 curva stimata Ricompattazione (a<F0<ß) Kolmogorov Smirnov Stima dei parametri curva fitting (MLE) Output=0 Output=1 1 speaker 2 speaker Figura 4 Schema a blocchi del sistema proposto nell’articolo. Passiamo ora a descrivere i vari blocchi che illustrano il sistema sviluppato (vedi figura 4). In una prima fase si procede all’estrazione della f0 all’interno dei vari anchor shot individuati dal sistema video. A tale scopo abbiamo implementato tre algoritmi per l’estrazione della f0: il classico metodo dell’autocorrelazione, il metodo del cepstrum ed un metodo dell’autocorrelazione ottimizzato per ridurre gli effetti di una eventuale continua e della prima formante (center clipping). In seguito abbiamo selezionato le solo porzioni in cui è definita la f0 sottoponendole ad un modulo di ricompattazione dei valori di tipo parametrico. Questo modulo ha la funzione di eliminare i casi più evidenti di raddoppiamento e di dimezzamento preservando la parte centrale della distribuzione. A tal scopo viene prima calcolata la media μ della f0 ed, a partire da due parametri A e B, si procede poi alla ricompattazione dei valori della f0. In particolare i valori di f0 minori di una certa soglia A sono stati raddoppiati, i valori di f0 compresi tra A e B sono rimasti inalterati, i valori di f0 maggiori di B sono stati dimezzati: f 0 new f 0 old se f 0 old ≤ Aμ 2 = f 0 old se Aμ < f 0 old < Bμ (6) 2 * f 0 old se f 0 old ≥ Bμ 723 Per quanto riguarda i parametri A e B sono state utilizzate le seguenti coppie di valori (0.35 - 1.65), (0.5 - 1.5), (0.6 - 1.4), (0.65 - 1.35). Successivamente, a partire dalla distribuzione complessiva di f0 ricompattata, stimiamo i parametri di un certa distribuzione (ad es. lognormale) attraverso una stima di tipo Maximum Likelihood Estimation. Allo scopo di valutare il numero degli speaker, confrontiamo la distribuzione stimata a partire dai parametri calcolati sopra con la distribuzione reale della f0: se il risultato del confronto è positivo possiamo concludere che abbiamo a che fare con un solo parlante (vedi figura 3) altrimenti ci troviamo nel caso di due parlanti (o più in generale di n parlanti) come in figura 4. Per confrontare le due distribuzioni lo strumento matematico utilizzato è il test di ipotesi di Kolmogorov-Smirnov, il quale ci permette di dire se due distribuzioni sono simili o no considerando le funzioni cumulative delle due. Questo test ha il duplice vantaggio di essere potente ed efficiente per pochi campioni di una distribuzione e non parametrico, ossia i dati non devono necessariamente provenire da una distribuzione gaussiana rendendo questo test indipendente dalla distribuzione scelta dell’insieme di dati purché continua. 4. RISULTATI SPERIMENTALI Il corpus utilizzato è costituito da 18 telegiornali della televisione italiana canale5 in cui c’è uno speaker o a volte due speaker come conduttori. In particolare nei tg scelti (vedi tabella 1) ci sono 5 telegiornali condotti da 2 speaker e 13 telegiornali condotti da uno speaker. Per quanto riguarda la distribuzione del sesso degli speaker, abbiamo 9 differenti conduttori di cui 6 di sesso maschile e 3 di sesso femminile. 11_CANALE5 BRINDISI 1sp M 12_CANALE5 SPOSINI 1sp M 21_CANALE5 SUMMONTE - LEONE 2sp M+F 51_CANALE5 BUONAMICI 1sp F 103_CANALE5 GUALTIERI 1sp M 104_CANALE5 SPOSINI 1sp M 119_CANALE5 DI MIZIO 1sp M 120_CANALE5 DI MIZIO 1sp M 121_CANALE5 BUONAMICI 1sp F 125_CANALE5 SUMMONTE - LEONE 2sp M+F 126_CANALE5 SUMMONTE - LEONE 2sp M+F 127_CANALE5 SUMMONTE - PEDRI 2sp M+F 128_CANALE5 MENTANA 1sp M 1sp F 132_CANALE5 BUONAMICI 133_CANALE5 MENTANA 1sp M 1sp M 134_CANALE5 SPOSINI 140_CANALE5 SPOSINI 1sp M 142_CANALE5 SUMMONTE - LEONE 2sp M+F Tabella 1 Corpus utilizzato durante la sperimentazione. 724 Nelle figure 5, 6 e 7 sono mostrati, per ognuna delle tecniche dell’estrazione della f0, il numero degli errori complessivo che compie il sistema al variare dell’intervallo di ricompattazione per una data distribuzione fissata. Error N.ro errori (autocorrelazione) 10 9 8 7 6 5 4 3 2 1 0 Lognormale Gamma Log-Logistica Gaussiana inversa 0.35 -1.65 0.5-1.5 0.6-1.4 0.65-1.35 Intervallo di ricompattazione Figura 5 Errori del sistema al variare dell’intervallo di ricompattazione nel caso di estrazione della f0 mediante metodo dell’autocorrelazione. N.ro errori (cepstrum) 14 12 Error 10 Lognormale 8 6 Gamma Log-Logistica 4 Gaussiana inversa 2 0 0.35 -1.65 0.5-1.5 0.6-1.4 0.65-1.35 Intervallo di ricompattazione Figura 6 Errori del sistema al variare dell’intervallo di ricompattazione nel caso di estrazione della f0 mediante metodo del cepstrum. 725 Error N.ro errori (autocorrelazione ottimizz.) 10 9 8 7 6 5 4 3 2 1 0 Lognormale Gamma Log-Logistica Gaussiana inversa 0.35 -1.65 0.5-1.5 0.6-1.4 0.65-1.35 Intervallo di ricompattazione Figura 7 Errori del sistema al variare dell’intervallo di ricompattazione nel caso di estrazione della f0 mediante metodo dell’autocorrelazione ottimizzata. Da questi grafici emerge che tra i tre metodi di estrazione della f0, il cepstrum sembra essere quello più colpito dai problemi di raddoppiamento e di dimezzamento. Infatti come si può osservare l’intervallo di ricompattazione in cui si raggiunge il numero minimo di errori da parte del metodo è quello che ha come parametri A e B la coppia di valori attorno all’intervallo (0.6 - 1.4) mentre negli altri due casi la coppia di valori con errore minimo è quella con valore attorno all’intervallo (0.5 -1.5). Tutto ciò indica che quando estraiamo la f0 con il metodo del cepstrum un numero maggiore di valori di f0 verranno modificati durante la ricompattazione rispetto agli altri due casi. In generale, quindi, la ricompattazione è un processo necessario per migliorare le prestazioni del sistema ma che non può essere troppo spinto per non perdere troppa informazione. In altri termini valori troppo grandi o troppo piccoli dei parametri A e B danno risultati peggiori mentre i risultati migliori si ottengono intorno ai valori centrali. Nelle figure 8, 9 e 10 viene mostrato per le tre tecniche di estrazione della f0 il grafico degli errori al variare del tipo di distribuzione fissati i due intervalli di ricompattazione migliore. 726 Numero erro Errori totali (autocorrelazione) 7 6 5 4 3 2 1 0 0.5-1.5 0.6-1.4 Lognormale Gamma Log-Logistica Gaussiana inversa Tipo di distribuzione Figura 8 Numero di errori al variare della distribuzione per una f0 estratta con il metodo dell’autocorrelazione. Errori totali (cepstrum) 6 Numero erro 5 4 0.6-1.4 3 0.65-1.35 2 1 0 Lognormale Gamma Log-Logistica Gaussiana inversa Tipo di distribuzione Figura 9 Numero di errori al variare della distribuzione per una f0 estratta con il metodo del cepstrum. 727 Errori totali (autocorrelazione ottimizz.) 6 Numero erro 5 4 0.5-1.5 3 0.6-1.4 2 1 0 Lognormale Gamma Log-Logistica Gaussiana inversa Tipo di distribuzione Figura 10 Numero di errori al variare della distribuzione per una f0 estratta con il metodo dell’autocorrelazione ottimizzata. Nel caso dell’autocorrelazione e dell’autocorrelazione ottimizzata la distribuzione che raggiunge i migliori risultati è la log-logistica, nel caso del cepstrum le due distribuzioni migliori sono la lognormale e la log-logistica. Complessivamente la distribuzione che raggiunge le migliori prestazioni è la log-logistica usando sempre lo stesso intervallo di ricompattazione (0.6 – 1.4) ed indipendentemente dalla tecnica di estrazione della f0. In particolare il minor numero assoluto di errori pari a 2 si ottiene sia con l’autocorrelazione che con l’autocorrelazione ottimizzata. Se consideriamo, poi, i tipi di errore commessi dal nostro sistema possiamo dividerli in due tipi: Errori di tipo 0 Errori di tipo 1 dove i primi accadono quando in un telegiornale vi è un solo speaker ma erroneamente gli vengono attribuiti dal sistema più di uno speaker, mentre gli errori di tipo 1 avvengono nel caso opposto ossia quando un telegiornale a più speaker viene riconosciuto dal sistema come un telegiornale con un solo speaker. Nella tabella 2 sono mostrati nel caso migliore, ossia fissata la distribuzione e l’intervallo di ricompattazione, le tipologie di errore commesse dal sistema al variare della tecnica di estrazione della f0. autocor cepstrum autocorr. ottimizz. Errori di tipo 0 2 1 2 Errori di tipo 1 0 2 0 Totale 2 3 2 Tabella 2 Distribuzione degli errori nel caso migliore Come possiamo vedere nel caso dell’autocorrelazione e nella autocorrelazione ottimizzata il sistema riesce ad individuare correttamente tutti i telegiornali in cui ci sono 728 più di uno speaker mentre individua l’85% di telegiornali con uno speaker. Nel caso del cepstrum, il sistema individua correttamente il 93% dei telegiornali con uno speaker ed il 60% dei telegiornali con più di uno speaker. % Errore medio M (1sp) F (1sp) M+F (2sp) 15% 28% AUTOCOR 38% 29% 53% CEPSTRUM 5% 15% AUTOCOR OTTIM. 21% 38% Tabella 3 Errore medio percentuale nel caso migliore. Infine nella tabella 3 sono riportati, sempre nel caso migliore, gli errori medi ottenuti dal sistema distinguendo il sesso nei casi in cui c’è uno speaker. Come si può osservare la tecnica del cepstrum fornisce i migliori risultati nel caso di speaker maschili con il 5% di errore in media, mentre fornisce le prestazioni peggiori nei telegiornali con due speaker con un errore del 53%. Invece la tecnica della autocorrelazione in entrambi le versioni ottiene l’errore medio più basso, pari al 38%, con due speaker. Nel caso di speaker femminile i miglior risultati sono ottenuti dall’autocorrelazione ottimizzata con un errore medio pari al 21%. 5. CONCLUSIONI In questo lavoro abbiamo presentato un sistema per caratterizzare il numero di speaker in un telegiornale usando un metodo integrato audio-video. In particolare abbiamo utilizzato le informazioni provenienti dalla distribuzione della f0 in uno shot video e abbiamo trovato la distribuzione (loglogistica) che approssima meglio la f0 nel caso di uno speaker indipendentemente dal metodo usato per il calcolo della f0. Ulteriori sviluppi di tale lavoro vanno ricercati sia nell’utilizzo di ulteriori informazioni che provengono dal test di ipotesi statistico per valutare il grado di similitudine tra la distribuzione stimata e quella sperimentale e sia in una stima più fine dei parametri A e B del processo di ricompattazione nei casi migliori. Infine tutto il sistema andrebbe testato su di un corpus più grande sia in lingua italiana che in altre lingue. 6. BIBLIOGRAFIA Albiol, A.; Torres, L.; Delp, E. J., 2003. The indexing of persons in news sequences using audio-visual data. In Proceedings of the International Conference on Acoustics, Speech and Signal Processing 2003, 3, 137-140. Cao, Y.; Tavanapong, W.; Kim, K.; Oh, J., 2003. Audio-assisted scene segmentation for story browsing. In Proceedings of the Conference on Image and Video Retrieval 2003, 446455. Carey, M. J.; Parris, E. S.; Lloyd-Thomas, H.; Bennett, S., 1996. Robust prosodic features for speaker identification. In Proceedings of the International Conference on Spoken Language Processing 1996, 3, 1800-1803. Chen, H.T.; Chen, D.Y.; Lee, S.Y., 2003. Object based video similarity retrieval and its application to detecting anchorperson shots in news video. In Proceedings of the International Symposium on Multimedia Software Engineering 2003, 172-179. 729 Childers, D.G.; Wu, K., 1991. Gender recognition from speech. Part II. Fine analysis. In Journal of the Acoustical Society of America, 90, 1841-1856. Delacourt, P.; Wellekens, C.J., 2000. DISTBIC: A speaker-based segmentation for audio data indexing. In Speech Communication, 32, 1-2, 111-126. De Santo, M.; Percannella, G.; Sansone, C.; Vento, M., 2005. An Unsupervised Shot Classification System for News Video Story Detection. In A.F Abate, M. Nappi, M. Sebillo (a c. d.) Multimedia Database and Image Communication, Singapore: World Scientific Publ., 93-104. Hsu, W.; Kennedy, L.; Huang, C. W.; Chang, S. F.; Lin, C. Y.; Iyengar, G., 2004. News video story segmentation using fusion of multi-level multi-modal features in TRECVID 2003. In Proceedings of the International Conference on Acoustics, Speech and Signal Processing 2004, 3, 645-648. Huang, J.; Liu, Z.; Wang, Y., 2000. Joint video scene segmentation and classification based on HMM. In Proceedings of the International Conference on Multimedia & Expo 2000, 1551-1554. Huang, R.; Hansen, J. H. L., (2004), Advances in unsupervised audio segmentation for the broadcast news and NGSW corpora, in Proceedings of Proceedings of the International Conference on Acoustics, Speech and Signal Processing 2004, Vol. III, 741-744. Klatt, D. H.; Klatt, L. C., 1990. Analysis, synthesis and perception of voice quality variations among female and male talkers. In Journal of the Acoustical Society of America, 87, 820-857. Li, Y.; Narayanan, S.; Jay Kuo, C. C., 2002. Identification of speakers in movie dialogs using audiovisual cues. In Proceedings of the International Conference on Acoustics, Speech and Signal Processing 2002, 2, 2093-2096. Liu, Z.; Huang, Q., 1999. Detecting news reporting using audio/visual information. In Proceedings of International Conference on Image Processing 1999, 324-328. Meinedo, H.; Neto, J., 2003. Audio segmentation, classification and clustering in a broadcast news task. In Proceedings of the International Conference on Acoustics, Speech and Signal Processing 2003, 1, 5-8. O’ Connor, N.; Czirjek, C.; Deasy, S.; Marlow, S.; Murphy, N.; Smeaton, A., 2001. News story segmentation in the fischlar video indexing system. In Proceedings of International Conference on Image Processing 2001, 418-421. Sonmez, K.; Heck, L.; Weintraub, M.; Shriberg, E., 1997. A lognormal tied mixture model of pitch for prosody based speaker recognition. In Proceedings of Eurospeech 1997, 3, 1391-1394. Wang, W.; Gao, W., 2002. Automatic Segmentation of news items based on video and audio features. In Journal of Computer Science and Technology, 17(2), 189-195. Wu, T. Y.; Lu, L.; Chen, K.; Zhang, H. J., 2003. UBM-based real-rime speaker segmentation for broadcasting news. In Proceedings of the International Conference on Acoustics, Speech and Signal Processing 2003, 2, 193-196. 730