as a PDF

Transcript

as a PDF
Appendix B: Samples for higQ, medQ, lowQ
noise
yes-no
city
digit
acoustic
higQ
RUMORE
medQ
buongio[no]
chi p[arla]
buongiorno
RISATA
lowQ
---
higQ
no
si'
medQ
si' BOCCA
RUMORE si' RESPIRO
lowQ
si' si'
attimo silvia
no perche' in questo momento son da solo
si' no pardon
no non c' e' nessuno
si' anna vieni qui
higQ
a fiume
torino
sono nata a gassino torinese
medQ
EH con accento piemontese
EH vestenanova provincia di verona RUMORE
SOTTOFONDO caserta
lowQ
---
higQ
due nove
otto sette nove quattro cinque due
medQ
SOTTOFONDO tre sette uno
EH zero RESPIRO
BOCCA sei sei tre
lowQ
[tr]e quattro due uno
tre sette nove due sette qua[ttro]
ventuno EH due uno
RISATA RIDENDO uno quattro cinque RISATA
sequenza zero tre due
'lora quattro cinque sei nove otto sette
higQ
la coppa di gelato
era assai abbondante
medQ
SOTTOFONDO il carnevale di viareggio
ho RUMORE la certezza RUMORE dell' accordo
era assai RUMORE abbondante RESPIRO
BOCCA daniele e' vegetariano
lowQ
[indir]izzo di maddalena
RIDENDO vorrei averlo sulle labbra
vista l' a EH mpiezza del magazzino TOSSE
e' troppo difficile ven[dere]
ha una ba ha una gamba be` inso[ma]
7
oggi il giusto zuavo
il brutto guantaio
un bravo scultore
ugo e maciste
un portentoso danese
quei piacevoli scalatori
i provetti falegnami
cinque famelici animali
e' troppo difficile vendere
la fragile navicella
la bambina golosa
la bella violinista
quando scende la sera
i tragici svedesi
i tredici cambogiani
bisogna assolvere il gobbo
il giustiziere ha maltrattato
il maligno alchimista
il semaforo avra' lampeggiato
il mio compare raffreddato
ritengo che siano regolari
stanno per esporre
bisognerebbe sfogliare adagio
il palloncino sgonfiato
ho accluso il tuo commento
quella triste ballerina
i sudditi di re corrado
il cannoniere dell' ammiraglio
cento chicchi di caffe'
la zona di catanzaro
quel cannoniere giapponese
la coppa di gelato
l' ammalata si abbuffo'
abbiamo comprato un cappotto
il babbo e la mamma
leggo nei tuoi occhi
la cuffia della nonna
la goccia bagna la terra
il cappello di genoveffa
la gabbia della giraffa
ho la certezza dell' accordo
in fondo al corridoio
nella zona di vienna
vista l' ampiezza del magazzino
la macchina del capo
la giraffa di giovanna
leggo la zeta di zorro
l' indirizzo di maddalena
la giraffa e' innocua
nella piazza affollata
quella ragazza in autunno
sfuggono all' arresto immediato
voglio una supplenza in autunno
filippo si e' raffreddato
giovanni e maddalena fuggono
emma si e' arrossata l' ascella
trafiggo il guerriero
ha svergognato alfredo
chiede se e' abbastanza freddo
costruisce una statua
sono due nomi in disuso
desidera risciacquare la bottiglia
possono ottimizzare la salita
costruiscono mobili perfetti
si aggirano nei dintorni di arezzo
gli articoli esposti
ha causato una tragedia
vuole cambiare il suo gelato
deve accordare lo strumento
voglio togliere la corrente
si vogliono addestrare laggiu'
possono distruggere il ponte
per i suoi eccellenti discorsi
il delegato della famiglia
lascia congelare l' agnello
mentre stava albeggiando
si e' aggravato quaggiu'
anche se appaiono leggeri
le matite sorteggiate
e poi chiudere il libro
e' stato reclamizzato abbastanza
alla nostra relazione
ha una gamba arcuata
sfuggono all' agguato
ha abbassato il vessillo azzurro
pesano piu' di duecento grammi
appare piena di agguati
ha affondato tredici navi
era assai abbondante
con un pranzo freddo
con solo mezzo cappuccio
vanno a catanzaro dal gobbo
il dubbio e la certezza
ha una macchia di sabbia
e raffredda i grappoli
sembra un ghiacciolo appuntito
ha un' altezza eccezionale
con annessi e connessi
c' e' la doccia con la spazzola
hanno vietato la caccia
e' difficile commerciare
ha un buco nella gomma
raggiunge una certa altezza
e immagino i tuoi commenti
vorrei averlo sulle labbra
la zanzara e' in agguato
hanno visto una donna zoppicante
farebbe diciannove anni e mezzo
restando immobili sul terreno
e poi correggo i commenti
nella corrente del corridoio
nella fredda notte d' autunno
durante l' orribile discesa
con un drammatico sogghigno
6
Appendix A: Acoustic Sentences
la nostra finanziaria
ogni volta che fa caldo
l' arcangelo gabriele
oggi vogliono spogliare
il ragazzo di rosa
qualsiasi lavandaia
tarzan vive nella giungla
daniele e' vegetariano
i tre moschettieri
settecentomila signorine
un sogno di mezza estate
le gemelle kessler
questa bella ragazza
una giovane signora
la bianca reginetta
la moglie di diego
questa sua debole figlia
ventotto sorelle
la veneziana che mi hai presentato
l' impetuosa reginetta
quarantaquattro gatti
le bambine di gregorio
barbara ti ha fatto
codesta sanguisuga
la mamma di eugenia
questa eccellente casalinga
codeste sue figlie
la fine compositrice
questa gattina bianca
la navicella spaziale
il carnevale di viareggio
il semaforo non funziona
l' usignolo di nadia
oggi paola e daniele
barbara vuole denunziare alfredo
la testuggine di mare
gregorio vuole seguire silvana
i pigmei vogliono mangiare
l' ufficiale ha maltrattato
la decisa zanzara ha punto
le anitre della cuoca
il vecchierello vuole divorare
una bottiglia si puo' trovare
i figli di ernesto
il canarino tutto giallo
quegli anglosassoni
stamattina gli scalatori
un fornaio di arezzo
il fidanzato di concetta
i medici guariranno
sergio e silvia
il marsigliese non crede
tanto va la gatta al lardo
una sconclusionata signorina
il generale e il militare
le smaliziate compagnie di sergio
i padroni vogliono ottimizzare
uno smorfioso zampognaro
la maestosa zarina
e' assai discussa
mi mangio un gelato per cena
parlo' al falegname immobile
le tombe degli etruschi
vuole studiare solo se piove
desidera risciacquare il bucato
assieme alla sua scimmia
pero' mangia omogeneizzati
hanno perduto la guerra
sono purtroppo state licenziate
sembrava proprio vero
volteggiano allegramente
vuole zuccherare il te'
avrebbe acceso il caminetto
pareva troppo gagliarda
diventera' santa
preferisce disegnare di sera
sono meno di ventinove
mi sembra molto viziata
vuole migliorare il suo portamento
in fila per sei col resto di due
preferiscono disegnare animali
un' accoglienza glaciale
deve sloggiare al piu' presto
preferisce quindici garofani
fa da mangiare controvoglia
non hanno compagne
migliorera' la sua tecnica
e' parecchio viziata
ha finito il carburante
prende in giro i potenti
tutte le volte che lampeggia
ha un canto melodioso
si sono raffreddati
perche' e' troppo impetuoso
ha divorato una vongola
nei pressi di salsomaggiore
la cavalla di silvana
i giovani soldati
il figlio del generale
erano proprio eccellenti
tutte queste noccioline scaldate
in un grande magazzino
non si lasciano mai chiamare
cinguetta con molta grazia
hanno l' addome arrotondato
si sono sbracciati inutilmente
voleva gia' accendere il forno
non si e' ancora organizzato
quel gagliardo figliolo
vorrebbero fare una passeggiata
che stia albeggiando
che ci lascia lo zampino
si e' invaghita di giorgio
sono uniti da una vera amicizia
desiderano risciacquare
il lavoro dei subalterni
e' stato licenziato stamattina
perdona la sua nemica
5
5 Transcriptions
All the speech material has been manually checked and transcribed. Besides words, uppercase labels have
been used to transcribe noises, as described later. Finally, each le has been labeled with one of the following
classes:
higQ) sentences without spontaneous speech phenomena, and whose content is in accordance with its prompt;
medQ) sentences with some weak spontaneous speech phenomena (breath, noises, hesitations, isolated laughs,
etc. labeled as BOCCA CLICK EH RESPIRO RISATA RUMORE SOTTOFONDO TOSSE), and whose
content is in accordance with its prompt;
lowQ) sentences containing either strong spontaneous speech phenomena (false starts, speech and laughs
together, etc. labeled as [qua]ttro RIDENDO) or whose content is not in accordance with its prompt.
Table 4 contains the number of sentences collected for each group and class; some signicant samples are
reported in appendix B.
higQ medQ lowQ
noise
496
345
3
yes-no 398
119 104
city
299
85
38
digit 1182
358 131
acoustic 1256
284 112
Table 4: Number of les collected for each group and class.
References
[Angelini et al., 1995] Angelini, B., Brugnara, F., Falavigna, D., Giuliani, D., Gretter, R., and Omologo, M.
(1995). Attivita preliminare per la realizzazione di un riconoscitore per linea telefonica. Internal Report
9506-06, IRST.
[Angelini et al., 1994] Angelini, B., Brugnara, F., Falavigna, D., Giuliani, D., Gretter, R., and Omologo.,
M. (September 1994). Speaker Independent Continuous Speech Recognition Using an Acoustic-Phonetic
Italian Corpus. In Proceedings of the International Conference on Spoken Language Processing, pages
85{88, Yokohama, Japan.
4
contained in his/her \city" les. When the \city" les were not present (typically when the speaker refused
to collaborate) or not informative (either the system collected only some hesitation, because of start-end
point errors, or the speaker's reply was not that expected \accent? what do you mean for accent?"), the
speaker accent was labeled as \none". Table 2 shows geographical distribution for the speakers collected,
which in total sum up to 280. Based on his/her voice, each speaker has further classied into sex and age,
resulting in 147 females and 133 males, 7 childs, 12 boys, 245 adults and 16 seniors.
spk
14
5
9
20
38
0
29
Region
Friuli-Venezia Giulia
Liguria
Lombardia
Piemonte
Trentino-Alto Adige
Valle d'Aosta
Veneto
115 NORTH
spk
2
22
20
4
1
24
2
Region
Abruzzi
Emilia-Romagna
Lazio
Marche
Molise
Toscana
Umbria
75 CENTER
spk
0
2
10
20
16
9
Region
Basilicata
Calabria
Campania
Puglia
Sardegna
Sicilia
57 SOUTH
Table 2: Geographical distribution for the speakers. Other 33 none speakers were also collected, for a total
of 280 speakers.
As some of the speakers refuse to collaborate, their contribution to the database consists only in some
noise les and one \no", which in any case were collected. Other speakers hung up after some replies, or
missed to pronounce some sentence, so it is important to quantify the number of speakers which gave a
signicant contribution to the dierent groups of les. Table 3 report some data for digit and acoustic les,
which are the most signicant ones.
239 speakers said at least 1 acoustic sentence
227 speakers said at least 3 acoustic sentences
213 speakers said at least 5 acoustic sentences
240 speakers said at least 1 digit sequence
238 speakers said at least 3 digit sequences
220 speakers said at least 5 digit sequences
Table 3: Number of speakers which pronounced a signicant number of sentences.
As previously pointed out, since in a telephone application the users have not experience with speech
recognition, they frequently provide unforeseen sentences. In our telephone speech database, even when the
system explicitly requires to utter only yes or no, a large percentage of the answers diers from them. In
particular, the database contains the following distribution of yes/no answers:
64.1% clean yes/no;
19.2% yes/no with some weak spontaneous speech phenomena;
2.7% other expressions clearly meaning yes/no;
3.7% yes/no followed by other words (motivations, comments, etc.);
10.3% expressions without a clear yes/no meaning.
3
3 Automatic Call
Sentence recordings are performed by an automatic system that calls a previously advised speaker. A typical
call starts with a short introduction; in this phase, during pauses, short recordings of background noise are
carried out. Then, the system prompts some questions to the speaker and waits for the answers. A startend point algorithm detects the signal, which is stored and eventually recognized. In fact, the call ow is
controlled by the speaker that must answer \yes" or \no" to some questions. The recordings, during a call,
are divided into dierent groups, which are:
3 to 7 \noise", having duration 0.5 sec, acquired during the system presentation (these could be used
for noise estimation in order to perform channel compensation or noise reduction);
some \yes-no" replies to various prompts of the system;
3 \city", i.e. names related to both the speaker's origin and residence;
7 \digit" sentences, uttered in a continuous way;
8 \acoustic" sentences, that the system asks to repeat, designed so as to obtain a phonetically rich
corpus.
For what concerns digits, the user was rst requested to repeat 3 sequences, composed respectively by 2, 3
and 4 digits; then he/she was invited to say other 4 free sequences, for example telephone numbers. Acoustic
sentences were picked by a list of 232 sentences, reported in appendix A. The dictionary of the acoustic
sentences is made of 530 words; on the average each acoustic sentence is composed by 3.9 words. Table 1
reports statistics about the phonetic coverage of the acoustic sentences. At the end of the session, the speaker
was asked if some other people were available and, if yes, another session started.
occ. phone occ. phone occ. phone occ. phone
11 zz
19 rr
44
f
98 EE
12 dd
20 GG
45 oo
115
k
12 gg
20 N
49
u
133
d
13 CC
21 Z
52
g
152 X
13
S
21
x
59 uu
205
t
13 ZZ
23 nn
61 @sch 228
l
14 kk
29 tt
66
p
229 aa
16 XX
30 L
73
j
252
r
16 34 C
75 OO
265
n
16 pp
39
ll
75
ii
294
i
17 bb
42
b
82
v
297
e
17 mm
43 G
91 ee
332
o
17
z
43 w
94 m
444
a
Table 1: Phonetic coverage of the acoustic sentences. For each phone the corresponding number of occurrences
is reported.
4 Database description
The telephone speech database has been designed in order to provide a good geographical coverage of Italian
speakers. Each speaker has been manually assigned to his/her Italian region, following the information
2
Acquisition of a speech database over the telephone network
B. Angelini, D. Falavigna, R. Gretter
IRST - Istituto per la Ricerca Scientica e Tecnologica,
38050 Povo di Trento (Italy)
March 11, 1997
Abstract
The description of a speech database collected over the telephone by means of an automatic calling
system is described. Particular care has been posed in the geographical coverage of the speakers.
Both task-dependent and task-independent material has been collected, in order to build respectively a
recognition system for connected digits and to provide a starting point for vocabulary-independent systems.
All the speech material has been manually transcribed, including spontaneous speech phenomena
(breaths, coughs, laughs, hesitations) and acoustically relevant noises.
1 Introduction
The diculty of automatic speech recognition over the telephone network is mainly due to the variability of
both the channel, through which the signal is transmitted, and to the inexperience of the users with speech
recognition applications.
To study these factors, and possibly to build recognition systems, it is important to collect a telephonic
speech database. Following our experience in building continuous speech, speaker independent, and task
independent recognition systems [Angelini et al., 1994], we have decided to collect phonetically rich material
for some hundreds of speakers.
Moreover, being involved in a project in which the recognition of connected digits is required, also digit
sequences were collected.
2 Acquisition Set-up
The system used to collect the database is composed by two PCs, as described in [Angelini et al., 1995]. The
rst PC, running under Windows 3.1, is equipped with a phone board built by a local factory, AT System,
which interfaces the telephone network; the second one, a PC-Pentium 90MhZ equipped with a Soundblaster
SB16, performs speech processing and recognition under UNIX-Linux, and controls the call ow. The two
PCs are connected via WinSock TCP/IP; the telephone line is merely extended from the PC board to the
Pentium Soundblaster. The processes running on the two PCs communicate via le polling, in order to exec
some basic operations. A typical sequence is:
PC-Pentium says to PC: \call 0314557";
PC executes and returns to PC-Pentium \done";
PC-Pentium carries out the whole interaction, performing speech synthesis, acquisition, recording or
recognition when necessary. PC is not involved, as all the interaction is carried out by voice via boardSoundblaster;
PC-Pentium says to PC: \hang-up".
1