articolo - Parlaritaliano

Transcript

articolo - Parlaritaliano
UN SISTEMA AUTOMATICO PER LA CARATTERIZZAZIONE
DEGLI SPEAKER IN FLUSSI MULTIMEDIALI
Leandro D’Anna1, Gennaro Percannella1, Carlo Sansone2, Mario Vento1
1
Dipartimento di Ingegneria dell’Informazione e Ingegneria Elettrica, Università degli Studi di
Salerno; 2Dipartimento di Informatica e Sistemistica, Università degli Studi di Napoli “Federico II”
[email protected], [email protected], [email protected], [email protected]
1. SOMMARIO
Il problema dell’individuazione, nella sola parte audio, della presenza di un solo
speaker o di un insieme di più speaker in flussi multimediali di tipo news broadcasting è
parte della più ampia classe di problemi legata alla speaker identification. Nel corso degli
anni, molte sono state le grandezze analizzate, sia nel tempo che in frequenza, e le tecniche
automatiche elaborate per caratterizzare univocamente un singolo speaker. Tutte si possono
suddividere in due grandi metodologie: una basata sulla sola analisi della parte audio, l’altra
con un approccio integrato audio-video.
La prima metodologia si rivela molto complessa da applicare ai flussi multimediali di
tipo news broadcast. Infatti all’interno delle stesse non esiste omogeneità da un punto di
vista acustico in quanto si alterna, ad esempio, audio in ambiente controllato, quale quello
da studio, con audio non controllato, quale quello da inviati esterni. Inoltre tale metodologia
non è idonea per sistemi che debbano lavorare in tempo quasi reale.
La seconda metodologia, invece, appare essere più promettente in quanto si basa sugli
accurati risultati ottenuti dall’analisi video. Quest’ultima, infatti, individuando la porzione
del flusso multimediale in cui è presente lo speaker, permette di isolare con un’ ottima
accuratezza le porzioni di parlato da studio consentendo, poi, sia un’ analisi audio su
porzioni omogenee da un punto di vista acustico e sia un’ analisi con porzioni di durata
molto breve e quindi più idonee ad un sistema in tempo quasi reale.
In questo lavoro, che nasce da un approccio integrato audio-video, viene descritto un
esperimento per valutare quanto il solo parametro frequenza fondamentale sia discriminante
rispetto alla presenza o meno di due speaker nel flusso audio corrispondente ad un insieme
di shot video in cui viene individuata la presenza di uno speaker generico sulla base di sole
informazioni video.
Nell’esperimento vengono utilizzati vari algoritmi standard per l’estrazione della f0 e
viene utilizzato un semplice criterio a soglie per attenuare sia gli errori di raddoppiamento e
sia gli errori di dimezzamento caratteristici di ogni algoritmo per l’estrazione della f0.
La tecnica proposta si basa sull’individuazione di una opportuna distribuzione statistica
per la f0 mediante un algoritmo di Maximum Likelihood Estimation (MLE) e sull’utilizzo di
un criterio di similarità statistico basato sul test di ipotesi di Kolmorogov-Smirnov.
Il corpus utilizzato nell’esperimento è costituito da 18 telegiornali italiani in cui a volte
sono presenti due speaker e a volte uno solo.
2. INTRODUZIONE
L’anchor shot detection è il problema di individuare gli speaker in maniera non ambigua
all’interno di un telegiornale allo scopo di realizzare una segmentazione degli shot in
anchor shot e news report shot. I primi sono caratterizzati dalla presenza dello speaker da
studio mentre i secondi sono costituiti da servizi e commentatori esterni (vedi figura 1).
718
Tutto questo è il primo passo di un sistema più generale per affrontare il problema della
classificazione e dell’indicizzazione di notizie dei telegiornali.
Un filmato di telegiornale, inteso come dominio di indagine, ha come fonti di
informazioni la traccia video e la traccia audio. In letteratura sono stati sviluppati tre
approcci per la risoluzione di questo problema.
N-th News story
Anchor shot
News-report
shot
(N+1)-th News story
Anchor shot
News-report
shot
(N+2)-th News story
Anchor shot
News-report
shot
Figura 1 Esempio di suddivisione in anchor shot e news report.
Il primo approccio prevede l’utilizzo della sola informazione video per l’individuazione
degli anchor shot (Huang et al., 2000; O’ Connor et al., 2001; Chen et al., 2003). Questo
approccio, oramai in via di abbandono, prevede l’individuazione dell’anchor sulla sola base
di informazioni legate allo sfondo da studio e al volto dello speaker ad esempio e su
considerazioni di frequenza d’occorrenza sui valori di vettori di determinate feature video.
Il grosso limite è dato dai casi in cui lo speaker commenta una notizia e non è inquadrato o
nel caso in cui una determinata inquadratura dello speaker occorre di rado (al limite una
volta) nel corso del telegiornale. In questi casi un sistema basato solo sulla informazione
video non riesce ad effettuare l’anchor shot detection in maniera corretta.
Il secondo approccio è quello che prevede l’utilizzo della sola informazione audio
utilizzando molte delle features e delle tecniche utilizzate anche nell’ambito della speaker
identification (Delacourt & Wellekens, 2000; Wu et al., 2003; Meinedo & Neto, 2003;
Huang & Hansen, 2004).
Questo approccio, però, ha due grossi limiti. Il primo scaturisce dal fatto che non esiste una
funzione universale in grado di modellare puntualmente uno speaker qualsiasi e nello stesso
tempo si adatti a differenti condizioni acustiche tra un telegiornale ed un altro. Il secondo è
dovuto al fatto che il metodo in sé tralascia completamente le informazioni video e in
particolare al fatto che se un anchor shot è presente in video sarà sempre presente in audio
(è estremamente improbabile che uno speaker sia solo inquadrato nello studio e non parli).
Il terzo approccio, infine, prevede un utilizzo integrato delle due fonti informative in
modo tale da sfruttare i punti di forza di ognuna di loro. In questo caso in letteratura
abbiamo due metodologie per l’integrazione. La prima considera l’audio ed il video come
fonti informative indipendenti. Ognuna di essi darà una suddivisione in anchor shot e news
report e sarà compito dell’integrazione finale mettere assieme le due suddivisioni (Wang &
Gao, 2002; Albiol et al., 2003; Hsu et al., 2004) operando delle scelte che in caso di
disaccordo privilegeranno uno dei due canali. In questi casi, quindi, si otterrà una
suddivisione che per essere univoca avrà caratteristiche di arbitrarietà. La seconda
metodologia, invece, prevede un’integrazione a monte dell’analisi dei due canali
informativi utilizzando le informazioni di un canale a supporto dell’altro (Liu & Huang,
1999; Li et al., 2002; Cao et al., 2003). In questo modo si ottiene un’unica suddivisione
719
concorde con le informazioni provenienti dai due canali a fronte di una certa complessità
del sistema.
Il sistema proposto in questo articolo utilizza un approccio integrato audio-video
effettuando un’integrazione a monte delle due fonti informative. In realtà la nostra
attenzione sarà rivolta alla sola parte audio tralasciando la descrizione della parte video già
illustrata in De Santo et al. (2005). In particolare verrà illustrato un metodo per la
caratterizzazione su base audio degli speaker e per l’individuazione del numero degli
anchor di un telegiornale utilizzando sia le informazioni sugli shot provenienti dal canale
video e sia la frequenza fondamentale vista come una grandezza idonea a caratterizzare
uno speaker su una scala temporale a livello di shot video e quindi di tipo globale.
Il corpus utilizzato nella sperimentazione del sistema in questione è costituito da un
corpus di 18 telegiornali italiani in cui a volte sono presenti due speaker e a volte uno solo.
3. DESCRIZIONE DEL METODO
Il problema di discriminare anchor shot differenti all’interno di un telegiornale
utilizzando la traccia audio si basa sull’uso di features calcolate nel dominio del tempo
(energia, frequenza fondamentale ) o nel dominio della frequenza (LPC, MFCC). Sotto
questo punto di vista, la frequenza fondamentale, essendo legata alla frequenza di
vibrazione delle pliche vocali, rappresenta una scelta naturale per la discriminazione degli
speaker. Infatti in letteratura (Childers & Wu, 1990; Klatt & Klatt, 1990) è noto che la
frequenza fondamentale delle donne è in media più alta di quella degli uomini e quindi
questa feature si presterebbe in maniera immediata a distinguere le due classi. Nella pratica
la capacità discriminante di questa feature è abbastanza soddisfacente per speaker di sesso
differente, anche se vi possono essere uomini con voce più acuta o donne con voce più
grave, e diminuisce drasticamente fino a diventare mediocre nel caso di speaker dello
stesso sesso.
In realtà il problema comune a tutte queste features del dominio audio è legato alla
caratteristica di essere locali, ossia al fatto di essere calcolate su frame audio di qualche
decina di millisecondi, e quindi di rappresentare, in maniera dettagliata, fenomeni legati più
al contenuto fonico che allo speaker. L’informazione legata a quest’ultimo, quindi, risulta
dispersa in un insieme abbastanza grande di valori e per questo di difficile estrazione.
In letteratura (Delacourt & Wellekens, 2000; Wu et al., 2003; Meinedo & Neto, 2003;
Huang & Hansen, 2004) un modo per aggirare questo limite si basa sull’utilizzo di tecniche
di addestramento per ricavare o modelli a priori di speaker (UBM) da confrontare con lo
speaker da discriminare o opportuni parametri da utilizzare in funzioni di similarità (BIC,
DISTBIC) applicate ad insiemi crescenti di frame audio.
Il nostro metodo si differenzia da questi ultimi approcci perché non intende usare nessuna
forma di addestramento e quindi intende discriminare anchor differenti anche all’interno di
un solo telegiornale. Allo scopo di ottenere questo risultato, occorre però cambiare
approccio al calcolo delle feature prevedendo l’utilizzo di una scala di analisi temporale più
grande che permetta di sfruttare la stabilità in media delle caratteristiche fisiologiche dello
speaker.
L’idea alla base del metodo nasce dalla considerazione che il parlato di uno speaker, su
porzioni aventi una durata sufficientemente grande, è caratterizzato da una propria
frequenza fondamentale media e da una sua varianza.
In realtà a questa componente se ne aggiunge un’altra dovuta ad errori presenti nel processo
di estrazione della f0. Quest’ultima componente, indipendentemente dall’algoritmo
utilizzato per l’estrazione della f0, è caratterizzata da due tipologie di errore: gli errori di
720
raddoppiamento e gli errori di dimezzamento del valore effettivo della f0, con una maggiore
prevalenza dei primi rispetto ai secondi a causa della vicinanza della prima formante.
Quindi, in prima approssimazione, i valori della f0 si distribuiscono secondo una
distribuzione che possiamo considerare essere una gaussiana (Carey et al., 1996):
1
pdf gaussian =
σ 2π
e
1 ⎛ x−μ ⎞
− ⎜⎜
⎟
2⎝ σ ⎠
(1)
ma che in letteratura (Sonmez et al., 1997) alcuni hanno individuato più correttamente
come una distribuzione lognormale per tener conto degli errori di raddoppiamento e di
dimezzamento che tendono ad allungare le code:
pdf log normal =
1
σ 2π
e
−
1
ln ( x − μ )
2σ
(2)
Allo scopo di valutare quale distribuzione approssimi meglio la distribuzione della f0,
nel nostro sistema abbiamo considerato anche come possibile distribuzione della f0 una
distribuzione gamma:
pdf gamma =
( x − μ ) γ −1 e − ( x − μ )
(3)
Γ(γ )
una distribuzione log-logistica:
ln T − μ
e
pdf log −log istic =
σ
σT (1 + e
(4)
ln T − μ
σ
)
2
e una distribuzione gaussiana inversa (o di Wald):
pdf inverse _ gaussian
3 ⎡ −β ⎜
⎜
β
=
⋅ x 2 e⎢ ⎝
2π
⎢
⎛ x−μ ⎞
⎟
σ ⎠
⎣
⎤
⎥ (5)
⎥⎦
Indipendentemente dalla distribuzione considerata, possiamo rappresentare i valori della
f0 come nella figura 2 mentre nel caso di due speaker di sesso differenti si può pensare la
distribuzione di f0 complessiva sia data dalla somma di due distribuzioni, ognuna
caratteristica di un parlante, e che la distribuzione risultante non avrà le caratteristiche di
quelle componenti (vedi figura 3).
721
Figura 2 Distribuzione dei valori della f0 in un telegiornale con uno speaker.
Figura 3 Distribuzione dei valori della f0 in un telegiornale con due speaker.
722
Estrazione
della f0
Calcolo curva
stimata
Eliminazione
parti unvoiced
Confronto
curva f0 curva stimata
Ricompattazione
(a<F0<ß)
Kolmogorov Smirnov
Stima dei
parametri curva
fitting (MLE)
Output=0
Output=1
1 speaker
2 speaker
Figura 4 Schema a blocchi del sistema proposto nell’articolo.
Passiamo ora a descrivere i vari blocchi che illustrano il sistema sviluppato (vedi figura
4). In una prima fase si procede all’estrazione della f0 all’interno dei vari anchor shot
individuati dal sistema video. A tale scopo abbiamo implementato tre algoritmi per
l’estrazione della f0: il classico metodo dell’autocorrelazione, il metodo del cepstrum ed un
metodo dell’autocorrelazione ottimizzato per ridurre gli effetti di una eventuale continua e
della prima formante (center clipping).
In seguito abbiamo selezionato le solo porzioni in cui è definita la f0 sottoponendole ad
un modulo di ricompattazione dei valori di tipo parametrico.
Questo modulo ha la funzione di eliminare i casi più evidenti di raddoppiamento e di
dimezzamento preservando la parte centrale della distribuzione. A tal scopo viene prima
calcolata la media μ della f0 ed, a partire da due parametri A e B, si procede poi alla
ricompattazione dei valori della f0. In particolare i valori di f0 minori di una certa soglia A
sono stati raddoppiati, i valori di f0 compresi tra A e B sono rimasti inalterati, i valori di f0
maggiori di B sono stati dimezzati:
f 0 new
f 0 old
se f 0 old ≤ Aμ
2
= f 0 old se Aμ < f 0 old < Bμ (6)
2 * f 0 old se f 0 old ≥ Bμ
723
Per quanto riguarda i parametri A e B sono state utilizzate le seguenti coppie di valori
(0.35 - 1.65), (0.5 - 1.5), (0.6 - 1.4), (0.65 - 1.35).
Successivamente, a partire dalla distribuzione complessiva di f0 ricompattata, stimiamo i
parametri di un certa distribuzione (ad es. lognormale) attraverso una stima di tipo
Maximum Likelihood Estimation.
Allo scopo di valutare il numero degli speaker, confrontiamo la distribuzione stimata a
partire dai parametri calcolati sopra con la distribuzione reale della f0: se il risultato del
confronto è positivo possiamo concludere che abbiamo a che fare con un solo parlante (vedi
figura 3) altrimenti ci troviamo nel caso di due parlanti (o più in generale di n parlanti)
come in figura 4.
Per confrontare le due distribuzioni lo strumento matematico utilizzato è il test di ipotesi
di Kolmogorov-Smirnov, il quale ci permette di dire se due distribuzioni sono simili o no
considerando le funzioni cumulative delle due. Questo test ha il duplice vantaggio di essere
potente ed efficiente per pochi campioni di una distribuzione e non parametrico, ossia i dati
non devono necessariamente provenire da una distribuzione gaussiana rendendo questo test
indipendente dalla distribuzione scelta dell’insieme di dati purché continua.
4. RISULTATI SPERIMENTALI
Il corpus utilizzato è costituito da 18 telegiornali della televisione italiana canale5 in cui
c’è uno speaker o a volte due speaker come conduttori.
In particolare nei tg scelti (vedi tabella 1) ci sono 5 telegiornali condotti da 2 speaker e 13
telegiornali condotti da uno speaker.
Per quanto riguarda la distribuzione del sesso degli speaker, abbiamo 9 differenti conduttori
di cui 6 di sesso maschile e 3 di sesso femminile.
11_CANALE5 BRINDISI
1sp M
12_CANALE5 SPOSINI
1sp M
21_CANALE5 SUMMONTE - LEONE
2sp M+F
51_CANALE5 BUONAMICI
1sp F
103_CANALE5 GUALTIERI
1sp M
104_CANALE5 SPOSINI
1sp M
119_CANALE5 DI MIZIO
1sp M
120_CANALE5 DI MIZIO
1sp M
121_CANALE5 BUONAMICI
1sp F
125_CANALE5 SUMMONTE - LEONE
2sp M+F
126_CANALE5 SUMMONTE - LEONE
2sp M+F
127_CANALE5 SUMMONTE - PEDRI
2sp M+F
128_CANALE5 MENTANA
1sp M
1sp F
132_CANALE5 BUONAMICI
133_CANALE5 MENTANA
1sp M
1sp M
134_CANALE5 SPOSINI
140_CANALE5 SPOSINI
1sp M
142_CANALE5 SUMMONTE - LEONE
2sp M+F
Tabella 1 Corpus utilizzato durante la sperimentazione.
724
Nelle figure 5, 6 e 7 sono mostrati, per ognuna delle tecniche dell’estrazione della f0, il
numero degli errori complessivo che compie il sistema al variare dell’intervallo di
ricompattazione per una data distribuzione fissata.
Error
N.ro errori (autocorrelazione)
10
9
8
7
6
5
4
3
2
1
0
Lognormale
Gamma
Log-Logistica
Gaussiana inversa
0.35 -1.65
0.5-1.5
0.6-1.4
0.65-1.35
Intervallo di ricompattazione
Figura 5 Errori del sistema al variare dell’intervallo di ricompattazione nel caso di
estrazione della f0 mediante metodo dell’autocorrelazione.
N.ro errori (cepstrum)
14
12
Error
10
Lognormale
8
6
Gamma
Log-Logistica
4
Gaussiana inversa
2
0
0.35 -1.65
0.5-1.5
0.6-1.4
0.65-1.35
Intervallo di ricompattazione
Figura 6 Errori del sistema al variare dell’intervallo di ricompattazione nel caso di
estrazione della f0 mediante metodo del cepstrum.
725
Error
N.ro errori (autocorrelazione ottimizz.)
10
9
8
7
6
5
4
3
2
1
0
Lognormale
Gamma
Log-Logistica
Gaussiana inversa
0.35 -1.65
0.5-1.5
0.6-1.4
0.65-1.35
Intervallo di ricompattazione
Figura 7 Errori del sistema al variare dell’intervallo di ricompattazione nel caso di
estrazione della f0 mediante metodo dell’autocorrelazione ottimizzata.
Da questi grafici emerge che tra i tre metodi di estrazione della f0, il cepstrum sembra
essere quello più colpito dai problemi di raddoppiamento e di dimezzamento. Infatti come
si può osservare l’intervallo di ricompattazione in cui si raggiunge il numero minimo di
errori da parte del metodo è quello che ha come parametri A e B la coppia di valori attorno
all’intervallo (0.6 - 1.4) mentre negli altri due casi la coppia di valori con errore minimo è
quella con valore attorno all’intervallo (0.5 -1.5). Tutto ciò indica che quando estraiamo la
f0 con il metodo del cepstrum un numero maggiore di valori di f0 verranno modificati
durante la ricompattazione rispetto agli altri due casi.
In generale, quindi, la ricompattazione è un processo necessario per migliorare le
prestazioni del sistema ma che non può essere troppo spinto per non perdere troppa
informazione. In altri termini valori troppo grandi o troppo piccoli dei parametri A e B
danno risultati peggiori mentre i risultati migliori si ottengono intorno ai valori centrali.
Nelle figure 8, 9 e 10 viene mostrato per le tre tecniche di estrazione della f0 il grafico degli
errori al variare del tipo di distribuzione fissati i due intervalli di ricompattazione migliore.
726
Numero erro
Errori totali (autocorrelazione)
7
6
5
4
3
2
1
0
0.5-1.5
0.6-1.4
Lognormale
Gamma
Log-Logistica
Gaussiana
inversa
Tipo di distribuzione
Figura 8 Numero di errori al variare della distribuzione per una f0 estratta con il metodo
dell’autocorrelazione.
Errori totali (cepstrum)
6
Numero erro
5
4
0.6-1.4
3
0.65-1.35
2
1
0
Lognormale
Gamma
Log-Logistica
Gaussiana
inversa
Tipo di distribuzione
Figura 9 Numero di errori al variare della distribuzione per una f0 estratta con il metodo del
cepstrum.
727
Errori totali (autocorrelazione ottimizz.)
6
Numero erro
5
4
0.5-1.5
3
0.6-1.4
2
1
0
Lognormale
Gamma
Log-Logistica
Gaussiana
inversa
Tipo di distribuzione
Figura 10 Numero di errori al variare della distribuzione per una f0 estratta con il metodo
dell’autocorrelazione ottimizzata.
Nel caso dell’autocorrelazione e dell’autocorrelazione ottimizzata la distribuzione che
raggiunge i migliori risultati è la log-logistica, nel caso del cepstrum le due distribuzioni
migliori sono la lognormale e la log-logistica. Complessivamente la distribuzione che
raggiunge le migliori prestazioni è la log-logistica usando sempre lo stesso intervallo di
ricompattazione (0.6 – 1.4) ed indipendentemente dalla tecnica di estrazione della f0. In
particolare il minor numero assoluto di errori pari a 2 si ottiene sia con l’autocorrelazione
che con l’autocorrelazione ottimizzata.
Se consideriamo, poi, i tipi di errore commessi dal nostro sistema possiamo dividerli in
due tipi:
ƒ Errori di tipo 0
ƒ Errori di tipo 1
dove i primi accadono quando in un telegiornale vi è un solo speaker ma erroneamente gli
vengono attribuiti dal sistema più di uno speaker, mentre gli errori di tipo 1 avvengono nel
caso opposto ossia quando un telegiornale a più speaker viene riconosciuto dal sistema
come un telegiornale con un solo speaker.
Nella tabella 2 sono mostrati nel caso migliore, ossia fissata la distribuzione e
l’intervallo di ricompattazione, le tipologie di errore commesse dal sistema al variare della
tecnica di estrazione della f0.
autocor
cepstrum autocorr. ottimizz.
Errori di tipo 0
2
1
2
Errori di tipo 1
0
2
0
Totale
2
3
2
Tabella 2 Distribuzione degli errori nel caso migliore
Come possiamo vedere nel caso dell’autocorrelazione e nella autocorrelazione
ottimizzata il sistema riesce ad individuare correttamente tutti i telegiornali in cui ci sono
728
più di uno speaker mentre individua l’85% di telegiornali con uno speaker. Nel caso del
cepstrum, il sistema individua correttamente il 93% dei telegiornali con uno speaker ed il
60% dei telegiornali con più di uno speaker.
% Errore medio
M (1sp) F (1sp)
M+F (2sp)
15%
28%
AUTOCOR
38%
29%
53%
CEPSTRUM
5%
15%
AUTOCOR OTTIM.
21%
38%
Tabella 3 Errore medio percentuale nel caso migliore.
Infine nella tabella 3 sono riportati, sempre nel caso migliore, gli errori medi ottenuti
dal sistema distinguendo il sesso nei casi in cui c’è uno speaker.
Come si può osservare la tecnica del cepstrum fornisce i migliori risultati nel caso di
speaker maschili con il 5% di errore in media, mentre fornisce le prestazioni peggiori nei
telegiornali con due speaker con un errore del 53%. Invece la tecnica della autocorrelazione
in entrambi le versioni ottiene l’errore medio più basso, pari al 38%, con due speaker. Nel
caso di speaker femminile i miglior risultati sono ottenuti dall’autocorrelazione ottimizzata
con un errore medio pari al 21%.
5. CONCLUSIONI
In questo lavoro abbiamo presentato un sistema per caratterizzare il numero di speaker
in un telegiornale usando un metodo integrato audio-video. In particolare abbiamo
utilizzato le informazioni provenienti dalla distribuzione della f0 in uno shot video e
abbiamo trovato la distribuzione (loglogistica) che approssima meglio la f0 nel caso di uno
speaker indipendentemente dal metodo usato per il calcolo della f0. Ulteriori sviluppi di tale
lavoro vanno ricercati sia nell’utilizzo di ulteriori informazioni che provengono dal test di
ipotesi statistico per valutare il grado di similitudine tra la distribuzione stimata e quella
sperimentale e sia in una stima più fine dei parametri A e B del processo di ricompattazione
nei casi migliori. Infine tutto il sistema andrebbe testato su di un corpus più grande sia in
lingua italiana che in altre lingue.
6. BIBLIOGRAFIA
Albiol, A.; Torres, L.; Delp, E. J., 2003. The indexing of persons in news sequences using
audio-visual data. In Proceedings of the International Conference on Acoustics, Speech and
Signal Processing 2003, 3, 137-140.
Cao, Y.; Tavanapong, W.; Kim, K.; Oh, J., 2003. Audio-assisted scene segmentation for
story browsing. In Proceedings of the Conference on Image and Video Retrieval 2003, 446455.
Carey, M. J.; Parris, E. S.; Lloyd-Thomas, H.; Bennett, S., 1996. Robust prosodic features
for speaker identification. In Proceedings of the International Conference on Spoken
Language Processing 1996, 3, 1800-1803.
Chen, H.T.; Chen, D.Y.; Lee, S.Y., 2003. Object based video similarity retrieval and its
application to detecting anchorperson shots in news video. In Proceedings of the
International Symposium on Multimedia Software Engineering 2003, 172-179.
729
Childers, D.G.; Wu, K., 1991. Gender recognition from speech. Part II. Fine analysis. In
Journal of the Acoustical Society of America, 90, 1841-1856.
Delacourt, P.; Wellekens, C.J., 2000. DISTBIC: A speaker-based segmentation for audio
data indexing. In Speech Communication, 32, 1-2, 111-126.
De Santo, M.; Percannella, G.; Sansone, C.; Vento, M., 2005. An Unsupervised Shot
Classification System for News Video Story Detection. In A.F Abate, M. Nappi, M. Sebillo
(a c. d.) Multimedia Database and Image Communication, Singapore: World Scientific
Publ., 93-104.
Hsu, W.; Kennedy, L.; Huang, C. W.; Chang, S. F.; Lin, C. Y.; Iyengar, G., 2004. News
video story segmentation using fusion of multi-level multi-modal features in TRECVID
2003. In Proceedings of the International Conference on Acoustics, Speech and Signal
Processing 2004, 3, 645-648.
Huang, J.; Liu, Z.; Wang, Y., 2000. Joint video scene segmentation and classification based
on HMM. In Proceedings of the International Conference on Multimedia & Expo 2000,
1551-1554.
Huang, R.; Hansen, J. H. L., (2004), Advances in unsupervised audio segmentation for the
broadcast news and NGSW corpora, in Proceedings of Proceedings of the International
Conference on Acoustics, Speech and Signal Processing 2004, Vol. III, 741-744.
Klatt, D. H.; Klatt, L. C., 1990. Analysis, synthesis and perception of voice quality
variations among female and male talkers. In Journal of the Acoustical Society of America,
87, 820-857.
Li, Y.; Narayanan, S.; Jay Kuo, C. C., 2002. Identification of speakers in movie dialogs
using audiovisual cues. In Proceedings of the International Conference on Acoustics,
Speech and Signal Processing 2002, 2, 2093-2096.
Liu, Z.; Huang, Q., 1999. Detecting news reporting using audio/visual information. In
Proceedings of International Conference on Image Processing 1999, 324-328.
Meinedo, H.; Neto, J., 2003. Audio segmentation, classification and clustering in a
broadcast news task. In Proceedings of the International Conference on Acoustics, Speech
and Signal Processing 2003, 1, 5-8.
O’ Connor, N.; Czirjek, C.; Deasy, S.; Marlow, S.; Murphy, N.; Smeaton, A., 2001. News
story segmentation in the fischlar video indexing system. In Proceedings of International
Conference on Image Processing 2001, 418-421.
Sonmez, K.; Heck, L.; Weintraub, M.; Shriberg, E., 1997. A lognormal tied mixture model
of pitch for prosody based speaker recognition. In Proceedings of Eurospeech 1997, 3,
1391-1394.
Wang, W.; Gao, W., 2002. Automatic Segmentation of news items based on video and
audio features. In Journal of Computer Science and Technology, 17(2), 189-195.
Wu, T. Y.; Lu, L.; Chen, K.; Zhang, H. J., 2003. UBM-based real-rime speaker
segmentation for broadcasting news. In Proceedings of the International Conference on
Acoustics, Speech and Signal Processing 2003, 2, 193-196.
730