Annotazione linguistica multilivello manuale e automatica
Transcript
Annotazione linguistica multilivello manuale e automatica
ALMMA ANNOTAZIONE LINGUISTICA MULTILIVELLO MANUALE E AUTOMATICA: STRUMENTI E METODOLOGIE PER L'ANALISI E LA CODIFICA DI CORPORA DI PARLATO GIACOMO FERRARI Dipartimento di Studi Umanistici - Università del Piemonte Orientale e-mail: [email protected] FRANCESCO CUTUGNO Dipartimento di Scienze Fisiche e CIRASS Università di Napoli, "Federico II" e-mail: [email protected] RENATA SAVY - intervento di GIACOMO FERRARI - Dipartimento di Studi Linguistici e Letterari Università di Salerno e CIRASS Università di Napoli, "Federico II" e-mail: [email protected] 1. Introduzione Negli ultimi anni, gran parte dell'interesse dei linguisti e dei linguisti computazionali si è rivolto all'acquisizione e predisposizione di corpora, cioè di raccolte di campioni di lingua, memorizzati e trattati per un utilizzo di inferenza di modelli linguistici. Il bagaglio tecnico connesso con quest'attività va dalla definizione di criteri di trascrizione, all'utilizzo di diversi metodi di memorizzazione e di trattamento. Per ottenere una buona circolabilità e confrontabilità dei dati, si è posto molto presto il problema degli standard, cioè della costituzione di schemi di operazione rigidi e uniformi tra un progetto e l'altro. Dopo la raccolta del corpus, tutte le fasi del lavoro di annotazione, dalla trascrizione fino alla etichettatura di tutti i livelli linguistici, pongono, così, problemi di rapporto tra produzione effettiva, e sistemi di annotazione che talvolta derivano dalla osservazione di fenomeni linguistici all'interno di testi scritti o di parlato di laboratorio, scarsamente applicabili ai fenomeni che incorrono nel parlato. Nell'ambito dello studio dei corpora di parlato, in tempi più recenti, l'attenzione della comunità scientifica si va concentrando sempre di più sullo studio del parlato dialogico che costituisce un importante obiettivo di ricerca sia di base, sia applicata, ma al contempo anche un impegnativo banco di prova per la complessità delle problematiche che devono essere affrontate: in particolare non esiste un 107 corpus di parlato italiano che sia completamente annotato a partire dai livelli acusticofonetici fino a considerare anche tutti i livelli linguistici "alti" e paralinguistici come il livello morfosintattico, semantico-testuale, pragmatico, ecc. Nel sistema delle annotazioni multilivello un ruolo fondamentale va certamente assegnato alla prosodia, componente della struttura linguistica che si pone naturalmente come interfaccia fra livelli "bassi" e quelli "alti". Sul piano della rappresentazione dei dati di annotazione, si possono scegliere diversi formati in funzione degli scopi del progetto anche se l'attuale tendenza è quella di predisporre una base di dati a doppia rappresentazione ibridando l'ideale, "mark-up" in SGML prima (cfr.TEI) o in XML poi, con delle rappresentazioni tabellari per i dati più legati alla variabile temporale, ovvero alla dimensione acustica delle informazioni linguistiche. Infine, per quanto riguarda il trattamento dei campioni, si presentano numerosi livelli di etichettatura delle unità linguistiche, con soluzioni diverse per ciascun livello. Così, per alcuni di essi, ad esempio quello lessicale e morfologico, sono stati già sviluppati alcuni standard (es. EAGLES, Gibbon et al. 1997). Altri, invece, come l'annotazione dialogico-pragmatica, fanno riferimento ad una miriade di "schemi di annotazione" diversi tra loro, senza speranza di sintesi, almeno per ora. Quindi, nonostante esista una notevole quantità di grandi progetti di predisposizione di corpora, siamo ben lontani dall'aver rea- lizzato quella interoperabilità tra i dati che costituisce uno degli obiettivi prioritari della comunità scientifica. 2. Alcuni progetti Tenere un'anagrafe di tutti i progetti di trattamento dei corpora è scuramente un'impresa quasi disperata. Esistono organismi che forniscono un discreto panorama sull'esistente, come il SIGDIAL (www.sigdial.org) che censisce corpora, strumenti e studi relativi al settore dei dialoghi, come ELRA (www.icp.inpg.fr/ELRA/home.html) che censisce le risorse linguistiche disponibili commercialmente, come il Linguistic Data Consortium (LDC, www.ldc.upenn.edu/) che ha per obiettivo la creazione e la condivisione di risorse linguistiche, in termini di dati, strumenti e standard, e molti altri. Nonostante questa difficoltà di orientamento, ci sono alcuni progetti di prestigio che hanno avuto un'influenza decisiva sulle scelte scientifiche e tecniche degli altri progetti. 2.1. Il quadro internazionale Internazionalmente vale la pena di menzionare almeno i seguenti progetti, alcuni dei quali hanno prodotto materiale ormai accessibile in rete: - BNC, "British National Corpus", una raccolta di testi delle provenienze più disparate, sia scritti che parlati, annotati a livello testuale secondo uno schema sviluppato all'interno del progetto stesso. - TRAINS, una raccolta di dialoghi finalizzati alla gestione del traffico ferroviario di merci, raccolto e annotato presso l'università di Rochester. L'importanza di questo corpus consiste nell' aver dato vita per primo ad una serie di studi pionieristici sulle strutture dialogiche e sugli schemi di annotazione (da esso nasce lo schema detto DAMSL). - MAPTASK, una raccolta di dialoghi operata presso l'università di Edinburgo nell'ambito di un esperimento costruito esplicitamente per lo studio delle attività altamente pianificate1. - VERBMOBIL, corpus di conversazioni 108 raccolto presso il DFKI di Saarbrücken, nell'ambito dell'omonimo progetto nazionale di traduzione automatica vocale; è uno dei rari progetti che prevede, accanto all'annotazione dialogico-testuale, anche una porzione di corpus (il Kiel-Corpus, cfr.Kohler et al, 1995) etichettato a livello fonetico e prosodico. - NORTALK, un corpus di parlato di lingue nordiche, raccolto presso l'università di Göteborg; particolare attenzione viene dedicata alla dinamica della turnazione dialogica. - CHILDES, una raccolta ricca ed eterogea di testi di parlato infantile, trascritti ed annotati secondo lo schema CHAT. I progetti sono molto più numerosi, ve ne sono anche altri di grande respiro e la situazione è difficile da "fotografare" poiché nuovi progetti si aggiungono continuamente. Vale la pena notare, qui, che ciascuno dei progetti ha adottato un suo specifico schema di annotazione, diverso dagli altri. 2.2. La situazione italiana In Italia si è cominciato abbastanza tardi a raccogliere materiale, specialmente parlato, cercando, tuttavia, di colmare le lacune ed il ritardo, grazie ad un notevole intervento di finanziamento pubblico. Così, al di là delle raccolte private, si contano almeno quattro progetti: - TAL, per la costruzione di ampie risorse della lingua italiana, includendo anche la predisposizione di un certo numero di dialoghi annotati - AVIP/API/IPAR, un progetto cofinanziato dal MIUR, che si estende per tre bienni, all'interno del quale è stato raccolto un corpus dialogico attraverso il metodo MapTask, trascritto ed annotato a livello segmentale (fone1L'esperimento consiste nel consegnare ad una coppia di soggetti una mappa, una sola delle quali presenta un percorso tracciato; il soggetto con la mappa tracciata deve descrivere all'altro il percorso in modo da trasferirlo, quanto più accuratamente possibile, sull'altra mappa. Le mappe non sono completamente identiche, nel senso che il numero, la natura e la posizione di alcuni oggetti differiscono, in modo da rendere possibili fraintendimenti o momenti di difficoltà nello scambio comunicativo. Il dialogo può avvenire in diverse condizioni, a contatto oculare, senza contatto oculare, in condizioni fisiche di stress ecc tico-fonologico-lessicale); su una porzione del materiale è stata condotta un'annotazione del livello prosodico, prevalentemente con il metodo INTSINT (cfr. Hirst&Di Cristo, 1998), e, per scopi di confronto, secondo uno schema Tobi-like (cfr. Savino, Gili Fivela, Bertinetto, 2000); l'annotazione dei livelli morfosintattico e pragmatico segue lo schema utilizzato ad Edimburgo. - CLIPS, un corpus di 100 ore di parlato stratificato dal punto di vista diatopico e diafasico, trascritto ed annotato a livello segmentale (fonetico-fonologico-lessicale) secondo specifiche proprie del progetto - LABLITA, un corpus di italiano parlato, prodotto dall'omonimo laboratorio fiorentino, annotato dal punto di vista della valenza informativa (topic / comment) connessa alla struttura intonativa. 3. Alcuni limiti I progetti accennati sopra hanno in comune almeno due limiti: la difformità dei sistemi di annotazione, specialmente per quanto riguarda il livello prosodico che, come già osservato in precedenza, riveste un ruolo fondamentale, e il tipo di annotazione condotta manualmente senza un supporto automatico (o, più convenientemente, semi-automatico) soddisfacente. Il primo limite non è comune a tutti i livelli annotativi; come abbiamo accennato, per quanto concerne il livello lessicale e morfologico disponiamo di standard raccomandati da EAGLES. Il problema si pone, invece, a livello dialogico-pragmatico. Si tratta, però, di una difficoltà prevedibile, in quanto i tipi di testi acquisiti e trattati sono spesso molto dissimili tra loro, mentre le nostre conoscenze teoriche sono ben lontane dal metterci a disposizione repertori di etichette universalmente accettabili, come bene o male accade per le parti del discorso. Il problema, quindi, si pone come possibilità di confrontare diversi sistemi di etichettatura, piuttosto che di uniformarli tutti. Ed è proprio la difficoltà di applicare un sistema di annotazione che impone che il processo sia manuale. Le decisioni da adottare nel corso dell'etichettatura sono spesso complesse e richiedono una sensibilità linguistica 109 ed una capacità tecnica notevole. Proprio per venire in aiuto all'annotatore, sollevandolo almeno dal peso di lavorare direttamente su un file in formato macchina, sono state sviluppate numerose interfacce (tools) di annotazione, strettamente connesse, però, con il sistema di etichette, anche se spesso rivendicano la generalità di impiego. 4. Alcuni requisiti Per meglio analizzare i requisiti che renderebbero più agevole il trattamento del campione di lingua parlata, facciamo riferimento ad alcuni blocchi operativi. Non è fuori luogo rimarcare che il buon funzionamento di un ciclo operativo (possibilmente semiautomatizzato) potrebbe facilitare non soltanto la preparazione dei dati per scopi scientifici, ma rendere più agevoli operazioni di analisi del dialogo per scopi industriali di "users modelling", come ad esempio la trafila del "Wizard of Oz". La suddivisione in fasi che qui presentiamo deve essere intesa come non necessariamente sequenziale, in quanto, fatta salva la fase iniziale di trascrizione, molte delle fasi che descriveremo in questo paragrafo possono poi essere condotte in parallelo. La prima fase è dunque la trascrizione; si tratta di una fase che può essere svolta solo manualmente, almeno per scopi di ricerca. Infatti, l'uso di trascrittori automatici confligge con il requisito di accuratezza della trascrizione stessa, in quanto un trascrittore cerca di ricondurre il testo ad una forma normalizzata, mentre sul piano scientifico è estremamente importante disporre di tutte le informazioni relative a fenomeni di disfluenza (tipici o atipici), pause, esitazioni, a caratteristiche regionali/dialettali, ecc. Allo scopo dell'attività di tokenizzazione (v.oltre) risulta, poi, che la trascrizione, soprattutto se svolta secondo gli standard più rigorosi, può creare dei problemi. Una seconda fase è quella dell'analisi e codifica dei livelli segmentali (fonetico-fonologico-lessicale) che parte dalla eventuale ricerca di fenomeni di livello fonetico e subfonetico che possono talvolta essere rilevanti sia per scopi di ricerca di base che per finalità meramente applicative, per arrivare fino alla definizione dei confini più o meno definibili tra unità lessicali e alla rappresentazione di queste ultime in forma fonologica standard. Una terza fase riguarda l'annotazione prosodica, all'interno della quale vengono individuate porzioni di testo corrispondenti a singole unità tonali e, all'interno di queste, le porzioni ritmicamente e melodicamente rilevanti. Allo stato attuale, nonostante le numerose soluzioni adottate nei vari progetti nazionali ed internazionali, non esiste un sistema di annotazione completamente standardizzato né tantomeno un corpus sufficientemente ampio codificato a livello intonativomelodico e ritmico. La quarta fase è la tokenizzazione, cioè l'identificazione e la numerazione progressiva delle parole. Se il testo, però, è stato trascritto secondo gli standard correnti della trascrizione scientifica, si corre il rischio che molte delle informazioni, come le pause, l'indicazione dei vocoidi (risate, sospiri, inspirazioni ecc.) e dei rumori, vengano identificate come parole del testo esse stesse, inquinando così la numerazione. D'altra parte la numerazione manuale, oltre ad essere onerosa, moltiplica il rischio di errori. Occorre, pertanto, pensare a tokenizzatori specializzati o specializzabili per lo specifico della trascrizione ortografica. L'annotazione automatica si applica, come si è osservato sopra, ai livelli più stabili dell'annotazione, in particolare a quello morfologico-lessicale. In questo caso l'uso di dizionari automatici generali minimizza le possibilità di errore. L'annotazione manuale si applica, invece, ai livelli meno stabili, come quello prosodico o quello dialogico-pragmatico. Per i motivi esposti sopra, sarebbe raccomandabile l'uso di tools, cioè di interfacce che facilitino il compito dell'operatore; in particolare, sembra opportuno l'utilizzo di un unico tool adattabile a tutti i livelli. Tuttavia, progetti che hanno avuto per obiettivo la creazione di un tale tool, come ad esempio MATE, non hanno dato esito completamente soddisfacente. 110 5. Un percorso progettuale Sulla base dell'esperienza maturata nei precedenti progetti e di raccolta e codifica di corpora di parlato e di quanto esposto fin qui, si prefigura dunque la necessità di mettere a punto metodologie specifiche e di giungere ad una annotazione il più possibile integrata di diversi livelli della struttura linguistica. Le metodologie impiegate nel progetto, opportunamente integrate da software dedicato alle fasi specifiche di elaborazione, e di tecniche standard di trascrizione ed annotazione, potranno risultare applicabili anche a procedure di analisi di protocolli ad alto impatto tecnologico. Obiettivo generale del nostro progetto è pertanto la costruzione di un ambiente integrato per la produzione di una rappresentazione dei dati che renda disponibili "in linea" tutte le informazioni acustiche e linguistiche presenti nel corpus, orientato sia alla fruizione del corpus stesso per finalità strettamente applicative che agli studi di base. Il progetto non prevede e non necessita di una fase operativa di acquisizione di nuovi materiali, che avrebbe come unico risultato una inutile moltiplicazione di risorse mai sufficientemente sfruttate nelle loro potenzialità. Si propone piuttosto di elaborare e sperimentare nuove metodologie e tecniche di codifica, valorizzando le notevoli risorse linguistiche acquisite in precedenti progetti nazionali (in particolare CLIPS e AVIP-API) e mettendo a frutto l'esperienza inevitabilmente frammentaria, ma proficua, maturata sia nell'addestramento di personale scientificamente specializzato, sia nella definizione e applicazione di schemi e sistemi di annotazione adeguati al tipo di materiale trattato. Nel dettaglio, gli obiettivi del progetto possono dunque essere evidenziati nei seguenti punti: 1) costruire un sistema il più possibile automatico di annotazione di dialoghi multilivello di un corpus di italiano parlato. Il corpus troverebbe applicazioni negli studi sulla formalizzazione delle strutture dialogiche nella progettazione e l'addestramento di sistemi di riconoscimento automatico del parlato connesso e/o spontaneo, negli studi linguistici di base sulla lingua italiana; 2) effettuare un'etichettatura multilivello del piano prosodico, partendo dalle strutture segmentali a livello di sillaba e giungendo a quelle soprasegmentali dei patterns tonali, attraverso l'integrazione di procedimenti di segmentazione automatici, semiautomatici e manuali in sillabe e Unità Tonali, di modelli di rappresentazione e di sistemi di codifica multistandard; In funzione delle scelte operative che si effettueranno nel progetto, il file di riferimento può essere costituito direttamente dalla trascrizione o, in una visione ancora più sofisticata, dal file stesso di segnale allineato allo sviluppo temporale. Se questo è costituito dalla trascrizione, la tokenizzazione diviene operazione preliminare rispetto alle altre, in quanto è quella che produce il numero di progressivo identificativo delle unità linguistiche; trascrizion e Analisi fonetiche Tokenizzazione automatica Analisi prosodica dizionari o POS-tagging automatico interfaccia annotazione dialogica e pragmatica file di riferimento: annotazione integrata multilivello 3) giungere ad un sistema di allineamento del segnale acustico con le analisi delle strutture linguistiche di livello 'alto' o 'profondo' (strutture sintagmatiche, sintattiche e morfosintattiche) e di quelle testuali, integrate con la codifica prosodica. 5.1 Schema generale La figura 1 mostra una visione d'insieme dei tools necessari per lo sviluppo del progetto ALMMA. Lo schema generale di operazione è, quindi, quello di assumere un nucleo operativo basato sugli strumenti fondamentali della tokenizzazione automatica e dell'analisi prosodica e una serie di moduli da questi più o meno direttamente discendenti che riversino i dati in un unico file che contenga i risultati di tutti i livelli di annotazione in maniera integrata. Le nuvolette nel grafico rappresentano strumenti e "conoscenze integrative" esterne al corpus. 111 se, invece, ci riferiamo al file di segnale, la linea di riferimento sarà quella temporale ed il tokenizzatore si limiterà ad aggiungere informazione, identificando le singole unità di base (le parole). L'analisi prosodica nella sua centralità fungerà da interfaccia fra le componenti linguistiche di "basso" ed "alto" livello. In questo quadro la scelta del miglior sistema di annotazione prosodica possibile per queste finalità risulta fondamentale: nel nostro progetto ampio spazio sarà destinato al confronto fra i vari sistemi proposti ed alla possibilità di generarne di nuovi. 5.2. Le fasi del progetto Un tale progetto, che si propone un obiettivo non meno ambizioso di altri, ma probabilmente più realisticamente raggiungibile, prevede una doppia linea di operazione: la messa a punto di software specifico e la sperimentazione su vasti frammenti di corpora. Le due linee si intersecano continuamente, in quanto l'utilizzo dei tools che si vengono svi- luppando di volta in volta ne costituisce un importante strumento di validazione, proprio in quanto le diverse tipologie di parlato possono porre diversi requisiti. Diamo qui di seguito una descrizione schematica della struttura e delle varie fasi in cui si articola il progetto: M1 (mesi 1-8) - stato dell'arte, rassegna degli standard internazionali - studi di fattibilità - stesura specifiche di primo livello (tokenizzazione, annotazioni prosodiche, definizione dei tag sets per il livello lessicale e morfologico, sintattico, coreferenziale e pragmatico) - definizione della architettura della base di dati e delle query più semplici M2 (mesi 6-14) - predisposizione software (prima fase, definizione dei tag-set, tools xml, DTD, predisposizione del software per l'analisi prosodica - addestramento del personale destinato all'annotazione manuale prosodica e testuale - selezione dei corpora da etichettare e da usare come train, test e verifica per gli strumenti automatici M3 (mesi 12-26) - annotazione del corpus mediante segmentazione prosodica e relativa etichettatura - tagging manuale - analisi delle partizioni del dialogo, identificazione delle principali strutture e sequenze caratteristiche di "dialogue acts"in funzione dell'estrapolazione di strutture del discorso e di regolarità per il "discourse parsng". - predisposizione software (seconda fase, tools per l'annotazione automatica in trial-and-error, allineamento temporale di tutte le etichette, eccetera, verifica delle prestazioni); M4 (mesi 24-36) - software (terza fase: parsing e validazione della base di dati) - valutazioni a posteriori: 112 . confronto fra i vari sistemi di segmentazione prosodica automatici e manuali . confronto ed eventuale integrazione modellistica tra i sistemi di codifica prosodica . caratterizzazione psicologica e pragmatica delle strutture dialogiche - stesura documentazione finale di progetto Bibliografia AVIP Archivio delle Varietà dell'Italiano Parlato, COFIN'97, coordinatore P.M.Bertinetto, disponibile gratuitamente ed accessibile all'indirizzo http://www.cirass.unina.it opp ftp.cirass.unina.it/pub/avip BNC The British National Corpus: http://www.hcu.ox.ac.uk/BNC/ CHILDES: Mac Whinney, B., 1997, Il progetto CHILDES. Strumenti per l'analisi del linguaggio parlato, (edizione italiana a cura di E. Pizzuto e U. Bortolini), Edizioni del Cerro, Pisa: http://childes.psy.cmu.edu CLIPS Corpora e Lessici di Italiano Parlato e Scritto, coordinatore F. Albano Leoni, progetto ancora in corso, informazioni all'indirizzo: http://www.cirass.unina.it EAGLES: Gibbon, D., Moore, R., Winski, R., (eds) 1997, Handbook of Standard and Resource for Spoken Language Systems, Mouton de Gruyter, Berlin-NewYork. http://www.ilc.cnr.it/EAGLES/home.html INTSINT: Hirst, D., & A. Di Cristo (eds.), 1998, Intonation Systems. A Survey of Twenty Languages, Cambridge, Cambridge University Press: Savino M., Gili Fivela B. e Bertinetto P.M., 2000, Trascrizione prosodica, Documento di progetto, disponibile al sito ftp: //ftp.cirass.unina.it/cirass/pub/avip/doc_app http://www.lpl.univ-aix.fr/~hirst/intsint.html; http://www.lpl.univ-aix.fr/~hirst/prosodie.html. MATE: http://mate.nis.sdu.dk/ KIEL Corpus Kohler, K., Pätzold, M., Simpson, A., 1995, From scenario to segment. The controlled elicitation, transcription, segmentation and labelling of spontaneous speech. Arbeitsberichte (AIPUK) nr.29, Institut für Phonetik und digitale Sprachverarbeitung, Univesität Kiel. http://www.ipds.uni-kiel.de/forschung/kielcorpus.en.html TEI: Johansson, S., 1995, 'The approach of the Text Encoding Initiative to the encoding of spoken discourse', in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 82-98. Burnard, L., 1995, 'The Text Encoding Initiative: an overview', in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 69-81. http://www.tei-c.org/ LABLITA: Laboratorio Linguistico del Dipartimento di Italianistica dell'Università di Firenze, http://lablita.dit.unifi.it/ MAPTASK: Thompson, H.S., Anderson, A.H., Bader, M., 1995, 'Publishing a spoken corpus on CDROM: the HCRC Map Task experience', in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 168-181 http://www.hcrc.ed.ac.uk/maptask/ 113 NORTALK: http://www.ling.gu.se/projekt/nordtalk/ TAL http://www.ilc.cnr.it/viewpage.php/sez=progetti/id=8/vers=ita TRAINS: http://www.cs.rochester.edu/research/speech/ trains.html VERBMOBIL: Jekat, S., Klein, A., Maier, E., Maleck, I., Mast, M., Quantz, J., 1995, 'Dialogue Acts in VERBMOBIL', http://verbmobil.dfki.de/