as a PDF
Transcript
as a PDF
Appendix B: Samples for higQ, medQ, lowQ noise yes-no city digit acoustic higQ RUMORE medQ buongio[no] chi p[arla] buongiorno RISATA lowQ --- higQ no si' medQ si' BOCCA RUMORE si' RESPIRO lowQ si' si' attimo silvia no perche' in questo momento son da solo si' no pardon no non c' e' nessuno si' anna vieni qui higQ a fiume torino sono nata a gassino torinese medQ EH con accento piemontese EH vestenanova provincia di verona RUMORE SOTTOFONDO caserta lowQ --- higQ due nove otto sette nove quattro cinque due medQ SOTTOFONDO tre sette uno EH zero RESPIRO BOCCA sei sei tre lowQ [tr]e quattro due uno tre sette nove due sette qua[ttro] ventuno EH due uno RISATA RIDENDO uno quattro cinque RISATA sequenza zero tre due 'lora quattro cinque sei nove otto sette higQ la coppa di gelato era assai abbondante medQ SOTTOFONDO il carnevale di viareggio ho RUMORE la certezza RUMORE dell' accordo era assai RUMORE abbondante RESPIRO BOCCA daniele e' vegetariano lowQ [indir]izzo di maddalena RIDENDO vorrei averlo sulle labbra vista l' a EH mpiezza del magazzino TOSSE e' troppo difficile ven[dere] ha una ba ha una gamba be` inso[ma] 7 oggi il giusto zuavo il brutto guantaio un bravo scultore ugo e maciste un portentoso danese quei piacevoli scalatori i provetti falegnami cinque famelici animali e' troppo difficile vendere la fragile navicella la bambina golosa la bella violinista quando scende la sera i tragici svedesi i tredici cambogiani bisogna assolvere il gobbo il giustiziere ha maltrattato il maligno alchimista il semaforo avra' lampeggiato il mio compare raffreddato ritengo che siano regolari stanno per esporre bisognerebbe sfogliare adagio il palloncino sgonfiato ho accluso il tuo commento quella triste ballerina i sudditi di re corrado il cannoniere dell' ammiraglio cento chicchi di caffe' la zona di catanzaro quel cannoniere giapponese la coppa di gelato l' ammalata si abbuffo' abbiamo comprato un cappotto il babbo e la mamma leggo nei tuoi occhi la cuffia della nonna la goccia bagna la terra il cappello di genoveffa la gabbia della giraffa ho la certezza dell' accordo in fondo al corridoio nella zona di vienna vista l' ampiezza del magazzino la macchina del capo la giraffa di giovanna leggo la zeta di zorro l' indirizzo di maddalena la giraffa e' innocua nella piazza affollata quella ragazza in autunno sfuggono all' arresto immediato voglio una supplenza in autunno filippo si e' raffreddato giovanni e maddalena fuggono emma si e' arrossata l' ascella trafiggo il guerriero ha svergognato alfredo chiede se e' abbastanza freddo costruisce una statua sono due nomi in disuso desidera risciacquare la bottiglia possono ottimizzare la salita costruiscono mobili perfetti si aggirano nei dintorni di arezzo gli articoli esposti ha causato una tragedia vuole cambiare il suo gelato deve accordare lo strumento voglio togliere la corrente si vogliono addestrare laggiu' possono distruggere il ponte per i suoi eccellenti discorsi il delegato della famiglia lascia congelare l' agnello mentre stava albeggiando si e' aggravato quaggiu' anche se appaiono leggeri le matite sorteggiate e poi chiudere il libro e' stato reclamizzato abbastanza alla nostra relazione ha una gamba arcuata sfuggono all' agguato ha abbassato il vessillo azzurro pesano piu' di duecento grammi appare piena di agguati ha affondato tredici navi era assai abbondante con un pranzo freddo con solo mezzo cappuccio vanno a catanzaro dal gobbo il dubbio e la certezza ha una macchia di sabbia e raffredda i grappoli sembra un ghiacciolo appuntito ha un' altezza eccezionale con annessi e connessi c' e' la doccia con la spazzola hanno vietato la caccia e' difficile commerciare ha un buco nella gomma raggiunge una certa altezza e immagino i tuoi commenti vorrei averlo sulle labbra la zanzara e' in agguato hanno visto una donna zoppicante farebbe diciannove anni e mezzo restando immobili sul terreno e poi correggo i commenti nella corrente del corridoio nella fredda notte d' autunno durante l' orribile discesa con un drammatico sogghigno 6 Appendix A: Acoustic Sentences la nostra finanziaria ogni volta che fa caldo l' arcangelo gabriele oggi vogliono spogliare il ragazzo di rosa qualsiasi lavandaia tarzan vive nella giungla daniele e' vegetariano i tre moschettieri settecentomila signorine un sogno di mezza estate le gemelle kessler questa bella ragazza una giovane signora la bianca reginetta la moglie di diego questa sua debole figlia ventotto sorelle la veneziana che mi hai presentato l' impetuosa reginetta quarantaquattro gatti le bambine di gregorio barbara ti ha fatto codesta sanguisuga la mamma di eugenia questa eccellente casalinga codeste sue figlie la fine compositrice questa gattina bianca la navicella spaziale il carnevale di viareggio il semaforo non funziona l' usignolo di nadia oggi paola e daniele barbara vuole denunziare alfredo la testuggine di mare gregorio vuole seguire silvana i pigmei vogliono mangiare l' ufficiale ha maltrattato la decisa zanzara ha punto le anitre della cuoca il vecchierello vuole divorare una bottiglia si puo' trovare i figli di ernesto il canarino tutto giallo quegli anglosassoni stamattina gli scalatori un fornaio di arezzo il fidanzato di concetta i medici guariranno sergio e silvia il marsigliese non crede tanto va la gatta al lardo una sconclusionata signorina il generale e il militare le smaliziate compagnie di sergio i padroni vogliono ottimizzare uno smorfioso zampognaro la maestosa zarina e' assai discussa mi mangio un gelato per cena parlo' al falegname immobile le tombe degli etruschi vuole studiare solo se piove desidera risciacquare il bucato assieme alla sua scimmia pero' mangia omogeneizzati hanno perduto la guerra sono purtroppo state licenziate sembrava proprio vero volteggiano allegramente vuole zuccherare il te' avrebbe acceso il caminetto pareva troppo gagliarda diventera' santa preferisce disegnare di sera sono meno di ventinove mi sembra molto viziata vuole migliorare il suo portamento in fila per sei col resto di due preferiscono disegnare animali un' accoglienza glaciale deve sloggiare al piu' presto preferisce quindici garofani fa da mangiare controvoglia non hanno compagne migliorera' la sua tecnica e' parecchio viziata ha finito il carburante prende in giro i potenti tutte le volte che lampeggia ha un canto melodioso si sono raffreddati perche' e' troppo impetuoso ha divorato una vongola nei pressi di salsomaggiore la cavalla di silvana i giovani soldati il figlio del generale erano proprio eccellenti tutte queste noccioline scaldate in un grande magazzino non si lasciano mai chiamare cinguetta con molta grazia hanno l' addome arrotondato si sono sbracciati inutilmente voleva gia' accendere il forno non si e' ancora organizzato quel gagliardo figliolo vorrebbero fare una passeggiata che stia albeggiando che ci lascia lo zampino si e' invaghita di giorgio sono uniti da una vera amicizia desiderano risciacquare il lavoro dei subalterni e' stato licenziato stamattina perdona la sua nemica 5 5 Transcriptions All the speech material has been manually checked and transcribed. Besides words, uppercase labels have been used to transcribe noises, as described later. Finally, each le has been labeled with one of the following classes: higQ) sentences without spontaneous speech phenomena, and whose content is in accordance with its prompt; medQ) sentences with some weak spontaneous speech phenomena (breath, noises, hesitations, isolated laughs, etc. labeled as BOCCA CLICK EH RESPIRO RISATA RUMORE SOTTOFONDO TOSSE), and whose content is in accordance with its prompt; lowQ) sentences containing either strong spontaneous speech phenomena (false starts, speech and laughs together, etc. labeled as [qua]ttro RIDENDO) or whose content is not in accordance with its prompt. Table 4 contains the number of sentences collected for each group and class; some signicant samples are reported in appendix B. higQ medQ lowQ noise 496 345 3 yes-no 398 119 104 city 299 85 38 digit 1182 358 131 acoustic 1256 284 112 Table 4: Number of les collected for each group and class. References [Angelini et al., 1995] Angelini, B., Brugnara, F., Falavigna, D., Giuliani, D., Gretter, R., and Omologo, M. (1995). Attivita preliminare per la realizzazione di un riconoscitore per linea telefonica. Internal Report 9506-06, IRST. [Angelini et al., 1994] Angelini, B., Brugnara, F., Falavigna, D., Giuliani, D., Gretter, R., and Omologo., M. (September 1994). Speaker Independent Continuous Speech Recognition Using an Acoustic-Phonetic Italian Corpus. In Proceedings of the International Conference on Spoken Language Processing, pages 85{88, Yokohama, Japan. 4 contained in his/her \city" les. When the \city" les were not present (typically when the speaker refused to collaborate) or not informative (either the system collected only some hesitation, because of start-end point errors, or the speaker's reply was not that expected \accent? what do you mean for accent?"), the speaker accent was labeled as \none". Table 2 shows geographical distribution for the speakers collected, which in total sum up to 280. Based on his/her voice, each speaker has further classied into sex and age, resulting in 147 females and 133 males, 7 childs, 12 boys, 245 adults and 16 seniors. spk 14 5 9 20 38 0 29 Region Friuli-Venezia Giulia Liguria Lombardia Piemonte Trentino-Alto Adige Valle d'Aosta Veneto 115 NORTH spk 2 22 20 4 1 24 2 Region Abruzzi Emilia-Romagna Lazio Marche Molise Toscana Umbria 75 CENTER spk 0 2 10 20 16 9 Region Basilicata Calabria Campania Puglia Sardegna Sicilia 57 SOUTH Table 2: Geographical distribution for the speakers. Other 33 none speakers were also collected, for a total of 280 speakers. As some of the speakers refuse to collaborate, their contribution to the database consists only in some noise les and one \no", which in any case were collected. Other speakers hung up after some replies, or missed to pronounce some sentence, so it is important to quantify the number of speakers which gave a signicant contribution to the dierent groups of les. Table 3 report some data for digit and acoustic les, which are the most signicant ones. 239 speakers said at least 1 acoustic sentence 227 speakers said at least 3 acoustic sentences 213 speakers said at least 5 acoustic sentences 240 speakers said at least 1 digit sequence 238 speakers said at least 3 digit sequences 220 speakers said at least 5 digit sequences Table 3: Number of speakers which pronounced a signicant number of sentences. As previously pointed out, since in a telephone application the users have not experience with speech recognition, they frequently provide unforeseen sentences. In our telephone speech database, even when the system explicitly requires to utter only yes or no, a large percentage of the answers diers from them. In particular, the database contains the following distribution of yes/no answers: 64.1% clean yes/no; 19.2% yes/no with some weak spontaneous speech phenomena; 2.7% other expressions clearly meaning yes/no; 3.7% yes/no followed by other words (motivations, comments, etc.); 10.3% expressions without a clear yes/no meaning. 3 3 Automatic Call Sentence recordings are performed by an automatic system that calls a previously advised speaker. A typical call starts with a short introduction; in this phase, during pauses, short recordings of background noise are carried out. Then, the system prompts some questions to the speaker and waits for the answers. A startend point algorithm detects the signal, which is stored and eventually recognized. In fact, the call ow is controlled by the speaker that must answer \yes" or \no" to some questions. The recordings, during a call, are divided into dierent groups, which are: 3 to 7 \noise", having duration 0.5 sec, acquired during the system presentation (these could be used for noise estimation in order to perform channel compensation or noise reduction); some \yes-no" replies to various prompts of the system; 3 \city", i.e. names related to both the speaker's origin and residence; 7 \digit" sentences, uttered in a continuous way; 8 \acoustic" sentences, that the system asks to repeat, designed so as to obtain a phonetically rich corpus. For what concerns digits, the user was rst requested to repeat 3 sequences, composed respectively by 2, 3 and 4 digits; then he/she was invited to say other 4 free sequences, for example telephone numbers. Acoustic sentences were picked by a list of 232 sentences, reported in appendix A. The dictionary of the acoustic sentences is made of 530 words; on the average each acoustic sentence is composed by 3.9 words. Table 1 reports statistics about the phonetic coverage of the acoustic sentences. At the end of the session, the speaker was asked if some other people were available and, if yes, another session started. occ. phone occ. phone occ. phone occ. phone 11 zz 19 rr 44 f 98 EE 12 dd 20 GG 45 oo 115 k 12 gg 20 N 49 u 133 d 13 CC 21 Z 52 g 152 X 13 S 21 x 59 uu 205 t 13 ZZ 23 nn 61 @sch 228 l 14 kk 29 tt 66 p 229 aa 16 XX 30 L 73 j 252 r 16 34 C 75 OO 265 n 16 pp 39 ll 75 ii 294 i 17 bb 42 b 82 v 297 e 17 mm 43 G 91 ee 332 o 17 z 43 w 94 m 444 a Table 1: Phonetic coverage of the acoustic sentences. For each phone the corresponding number of occurrences is reported. 4 Database description The telephone speech database has been designed in order to provide a good geographical coverage of Italian speakers. Each speaker has been manually assigned to his/her Italian region, following the information 2 Acquisition of a speech database over the telephone network B. Angelini, D. Falavigna, R. Gretter IRST - Istituto per la Ricerca Scientica e Tecnologica, 38050 Povo di Trento (Italy) March 11, 1997 Abstract The description of a speech database collected over the telephone by means of an automatic calling system is described. Particular care has been posed in the geographical coverage of the speakers. Both task-dependent and task-independent material has been collected, in order to build respectively a recognition system for connected digits and to provide a starting point for vocabulary-independent systems. All the speech material has been manually transcribed, including spontaneous speech phenomena (breaths, coughs, laughs, hesitations) and acoustically relevant noises. 1 Introduction The diculty of automatic speech recognition over the telephone network is mainly due to the variability of both the channel, through which the signal is transmitted, and to the inexperience of the users with speech recognition applications. To study these factors, and possibly to build recognition systems, it is important to collect a telephonic speech database. Following our experience in building continuous speech, speaker independent, and task independent recognition systems [Angelini et al., 1994], we have decided to collect phonetically rich material for some hundreds of speakers. Moreover, being involved in a project in which the recognition of connected digits is required, also digit sequences were collected. 2 Acquisition Set-up The system used to collect the database is composed by two PCs, as described in [Angelini et al., 1995]. The rst PC, running under Windows 3.1, is equipped with a phone board built by a local factory, AT System, which interfaces the telephone network; the second one, a PC-Pentium 90MhZ equipped with a Soundblaster SB16, performs speech processing and recognition under UNIX-Linux, and controls the call ow. The two PCs are connected via WinSock TCP/IP; the telephone line is merely extended from the PC board to the Pentium Soundblaster. The processes running on the two PCs communicate via le polling, in order to exec some basic operations. A typical sequence is: PC-Pentium says to PC: \call 0314557"; PC executes and returns to PC-Pentium \done"; PC-Pentium carries out the whole interaction, performing speech synthesis, acquisition, recording or recognition when necessary. PC is not involved, as all the interaction is carried out by voice via boardSoundblaster; PC-Pentium says to PC: \hang-up". 1