Annotazione linguistica multilivello manuale e automatica

Transcript

Annotazione linguistica multilivello manuale e automatica
ALMMA
ANNOTAZIONE LINGUISTICA MULTILIVELLO
MANUALE E AUTOMATICA:
STRUMENTI E METODOLOGIE PER L'ANALISI
E LA CODIFICA DI CORPORA DI PARLATO
GIACOMO FERRARI
Dipartimento di Studi Umanistici - Università del Piemonte Orientale
e-mail: [email protected]
FRANCESCO CUTUGNO
Dipartimento di Scienze Fisiche e CIRASS Università di Napoli,
"Federico II"
e-mail: [email protected]
RENATA SAVY
- intervento di
GIACOMO FERRARI -
Dipartimento di Studi Linguistici e Letterari Università di Salerno
e CIRASS Università di Napoli, "Federico II"
e-mail: [email protected]
1. Introduzione
Negli ultimi anni, gran parte dell'interesse dei linguisti e dei linguisti computazionali si è rivolto all'acquisizione e predisposizione di corpora, cioè di raccolte di campioni
di lingua, memorizzati e trattati per un utilizzo
di inferenza di modelli linguistici. Il bagaglio
tecnico connesso con quest'attività va dalla
definizione di criteri di trascrizione, all'utilizzo
di diversi metodi di memorizzazione e di trattamento. Per ottenere una buona circolabilità
e confrontabilità dei dati, si è posto molto presto il problema degli standard, cioè della costituzione di schemi di operazione rigidi e uniformi tra un progetto e l'altro. Dopo la raccolta del
corpus, tutte le fasi del lavoro di annotazione,
dalla trascrizione fino alla etichettatura di tutti
i livelli linguistici, pongono, così, problemi di
rapporto tra produzione effettiva, e sistemi di
annotazione che talvolta derivano dalla osservazione di fenomeni linguistici all'interno di
testi scritti o di parlato di laboratorio, scarsamente applicabili ai fenomeni che incorrono
nel parlato.
Nell'ambito dello studio dei corpora di
parlato, in tempi più recenti, l'attenzione della
comunità scientifica si va concentrando sempre di più sullo studio del parlato dialogico che
costituisce un importante obiettivo di ricerca
sia di base, sia applicata, ma al contempo
anche un impegnativo banco di prova per la
complessità delle problematiche che devono
essere affrontate: in particolare non esiste un
107
corpus di parlato italiano che sia completamente annotato a partire dai livelli acusticofonetici fino a considerare anche tutti i livelli
linguistici "alti" e paralinguistici come il livello
morfosintattico, semantico-testuale, pragmatico, ecc. Nel sistema delle annotazioni multilivello un ruolo fondamentale va certamente
assegnato alla prosodia, componente della
struttura linguistica che si pone naturalmente
come interfaccia fra livelli "bassi" e quelli "alti".
Sul piano della rappresentazione dei dati
di annotazione, si possono scegliere diversi
formati in funzione degli scopi del progetto
anche se l'attuale tendenza è quella di predisporre una base di dati a doppia rappresentazione ibridando l'ideale, "mark-up" in SGML
prima (cfr.TEI) o in XML poi, con delle rappresentazioni tabellari per i dati più legati alla
variabile temporale, ovvero alla dimensione
acustica delle informazioni linguistiche. Infine,
per quanto riguarda il trattamento dei campioni, si presentano numerosi livelli di etichettatura delle unità linguistiche, con soluzioni diverse per ciascun livello. Così, per alcuni di essi,
ad esempio quello lessicale e morfologico,
sono stati già sviluppati alcuni standard (es.
EAGLES, Gibbon et al. 1997). Altri, invece,
come l'annotazione dialogico-pragmatica,
fanno riferimento ad una miriade di "schemi di
annotazione" diversi tra loro, senza speranza
di sintesi, almeno per ora.
Quindi, nonostante esista una notevole quantità di grandi progetti di predisposizione di corpora, siamo ben lontani dall'aver rea-
lizzato quella interoperabilità tra i dati che
costituisce uno degli obiettivi prioritari della
comunità scientifica.
2. Alcuni progetti
Tenere un'anagrafe di tutti i progetti di
trattamento dei corpora è scuramente un'impresa quasi disperata. Esistono organismi che
forniscono un discreto panorama sull'esistente, come il SIGDIAL (www.sigdial.org) che
censisce corpora, strumenti e studi relativi al
settore
dei
dialoghi,
come
ELRA
(www.icp.inpg.fr/ELRA/home.html) che censisce le risorse linguistiche disponibili commercialmente, come il Linguistic Data Consortium
(LDC, www.ldc.upenn.edu/) che ha per obiettivo la creazione e la condivisione di risorse linguistiche, in termini di dati, strumenti e standard, e molti altri. Nonostante questa difficoltà
di orientamento, ci sono alcuni progetti di prestigio che hanno avuto un'influenza decisiva
sulle scelte scientifiche e tecniche degli altri
progetti.
2.1. Il quadro internazionale
Internazionalmente vale la pena di
menzionare almeno i seguenti progetti, alcuni
dei quali hanno prodotto materiale ormai
accessibile in rete:
- BNC, "British National Corpus", una
raccolta di testi delle provenienze più disparate, sia scritti che parlati, annotati a livello
testuale secondo uno schema sviluppato all'interno del progetto stesso.
- TRAINS, una raccolta di dialoghi finalizzati alla gestione del traffico ferroviario di
merci, raccolto e annotato presso l'università
di Rochester. L'importanza di questo corpus
consiste nell' aver dato vita per primo ad una
serie di studi pionieristici sulle strutture dialogiche e sugli schemi di annotazione (da esso
nasce lo schema detto DAMSL).
- MAPTASK, una raccolta di dialoghi
operata presso l'università di Edinburgo nell'ambito di un esperimento costruito esplicitamente per lo studio delle attività altamente
pianificate1.
- VERBMOBIL, corpus di conversazioni
108
raccolto presso il DFKI di Saarbrücken, nell'ambito dell'omonimo progetto nazionale di
traduzione automatica vocale; è uno dei rari
progetti che prevede, accanto all'annotazione
dialogico-testuale, anche una porzione di corpus (il Kiel-Corpus, cfr.Kohler et al, 1995) etichettato a livello fonetico e prosodico.
- NORTALK, un corpus di parlato di lingue nordiche, raccolto presso l'università di
Göteborg; particolare attenzione viene dedicata alla dinamica della turnazione dialogica.
- CHILDES, una raccolta ricca ed eterogea di testi di parlato infantile, trascritti ed
annotati secondo lo schema CHAT.
I progetti sono molto più numerosi, ve
ne sono anche altri di grande respiro e la
situazione è difficile da "fotografare" poiché
nuovi progetti si aggiungono continuamente.
Vale la pena notare, qui, che ciascuno dei progetti ha adottato un suo specifico schema di
annotazione, diverso dagli altri.
2.2. La situazione italiana
In Italia si è cominciato abbastanza
tardi a raccogliere materiale, specialmente
parlato, cercando, tuttavia, di colmare le lacune ed il ritardo, grazie ad un notevole intervento di finanziamento pubblico. Così, al di là
delle raccolte private, si contano almeno quattro progetti:
- TAL, per la costruzione di ampie risorse della lingua italiana, includendo anche la
predisposizione di un certo numero di dialoghi
annotati
- AVIP/API/IPAR, un progetto cofinanziato dal MIUR, che si estende per tre bienni,
all'interno del quale è stato raccolto un corpus
dialogico attraverso il metodo MapTask, trascritto ed annotato a livello segmentale (fone1L'esperimento consiste nel consegnare ad una
coppia di soggetti una mappa, una sola delle quali presenta un percorso tracciato; il soggetto con la mappa
tracciata deve descrivere all'altro il percorso in modo da
trasferirlo, quanto più accuratamente possibile, sull'altra
mappa. Le mappe non sono completamente identiche,
nel senso che il numero, la natura e la posizione di alcuni oggetti differiscono, in modo da rendere possibili fraintendimenti o momenti di difficoltà nello scambio comunicativo. Il dialogo può avvenire in diverse condizioni, a
contatto oculare, senza contatto oculare, in condizioni
fisiche di stress ecc
tico-fonologico-lessicale); su una porzione del
materiale è stata condotta un'annotazione del
livello prosodico, prevalentemente con il
metodo INTSINT (cfr. Hirst&Di Cristo, 1998),
e, per scopi di confronto, secondo uno schema Tobi-like (cfr. Savino, Gili Fivela,
Bertinetto, 2000); l'annotazione dei livelli morfosintattico e pragmatico segue lo schema utilizzato ad Edimburgo.
- CLIPS, un corpus di 100 ore di parlato
stratificato dal punto di vista diatopico e diafasico, trascritto ed annotato a livello segmentale (fonetico-fonologico-lessicale) secondo
specifiche proprie del progetto
- LABLITA, un corpus di italiano parlato,
prodotto dall'omonimo laboratorio fiorentino,
annotato dal punto di vista della valenza informativa (topic / comment) connessa alla struttura intonativa.
3. Alcuni limiti
I progetti accennati sopra hanno in
comune almeno due limiti: la difformità dei
sistemi di annotazione, specialmente per
quanto riguarda il livello prosodico che, come
già osservato in precedenza, riveste un ruolo
fondamentale, e il tipo di annotazione condotta manualmente senza un supporto automatico (o, più convenientemente, semi-automatico) soddisfacente. Il primo limite non è comune a tutti i livelli annotativi; come abbiamo
accennato, per quanto concerne il livello lessicale e morfologico disponiamo di standard
raccomandati da EAGLES. Il problema si
pone, invece, a livello dialogico-pragmatico. Si
tratta, però, di una difficoltà prevedibile, in
quanto i tipi di testi acquisiti e trattati sono
spesso molto dissimili tra loro, mentre le
nostre conoscenze teoriche sono ben lontane
dal metterci a disposizione repertori di etichette universalmente accettabili, come bene o
male accade per le parti del discorso. Il problema, quindi, si pone come possibilità di confrontare diversi sistemi di etichettatura, piuttosto che di uniformarli tutti.
Ed è proprio la difficoltà di applicare un
sistema di annotazione che impone che il processo sia manuale. Le decisioni da adottare
nel corso dell'etichettatura sono spesso complesse e richiedono una sensibilità linguistica
109
ed una capacità tecnica notevole. Proprio per
venire in aiuto all'annotatore, sollevandolo
almeno dal peso di lavorare direttamente su
un file in formato macchina, sono state sviluppate numerose interfacce (tools) di annotazione, strettamente connesse, però, con il sistema di etichette, anche se spesso rivendicano
la generalità di impiego.
4. Alcuni requisiti
Per meglio analizzare i requisiti che
renderebbero più agevole il trattamento del
campione di lingua parlata, facciamo riferimento ad alcuni blocchi operativi. Non è fuori
luogo rimarcare che il buon funzionamento di
un ciclo operativo (possibilmente semiautomatizzato) potrebbe facilitare non soltanto la
preparazione dei dati per scopi scientifici, ma
rendere più agevoli operazioni di analisi del
dialogo per scopi industriali di "users modelling", come ad esempio la trafila del "Wizard of
Oz".
La suddivisione in fasi che qui presentiamo deve essere intesa come non necessariamente sequenziale, in quanto, fatta salva la
fase iniziale di trascrizione, molte delle fasi
che descriveremo in questo paragrafo possono poi essere condotte in parallelo.
La prima fase è dunque la trascrizione;
si tratta di una fase che può essere svolta solo
manualmente, almeno per scopi di ricerca.
Infatti, l'uso di trascrittori automatici confligge
con il requisito di accuratezza della trascrizione stessa, in quanto un trascrittore cerca di
ricondurre il testo ad una forma normalizzata,
mentre sul piano scientifico è estremamente
importante disporre di tutte le informazioni
relative a fenomeni di disfluenza (tipici o atipici), pause, esitazioni, a caratteristiche regionali/dialettali, ecc. Allo scopo dell'attività di
tokenizzazione (v.oltre) risulta, poi, che la trascrizione, soprattutto se svolta secondo gli
standard più rigorosi, può creare dei problemi.
Una seconda fase è quella dell'analisi
e codifica dei livelli segmentali (fonetico-fonologico-lessicale) che parte dalla eventuale
ricerca di fenomeni di livello fonetico e subfonetico che possono talvolta essere rilevanti
sia per scopi di ricerca di base che per finalità
meramente applicative, per arrivare fino alla
definizione dei confini più o meno definibili tra
unità lessicali e alla rappresentazione di queste ultime in forma fonologica standard.
Una terza fase riguarda l'annotazione
prosodica, all'interno della quale vengono
individuate porzioni di testo corrispondenti a
singole unità tonali e, all'interno di queste, le
porzioni ritmicamente e melodicamente rilevanti. Allo stato attuale, nonostante le numerose soluzioni adottate nei vari progetti
nazionali ed internazionali, non esiste un
sistema di annotazione completamente standardizzato né tantomeno un corpus sufficientemente ampio codificato a livello intonativomelodico e ritmico.
La quarta fase è la tokenizzazione,
cioè l'identificazione e la numerazione progressiva delle parole. Se il testo, però, è
stato trascritto secondo gli standard correnti
della trascrizione scientifica, si corre il rischio
che molte delle informazioni, come le pause,
l'indicazione dei vocoidi (risate, sospiri, inspirazioni ecc.) e dei rumori, vengano identificate come parole del testo esse stesse, inquinando così la numerazione. D'altra parte la
numerazione manuale, oltre ad essere onerosa, moltiplica il rischio di errori. Occorre,
pertanto, pensare a tokenizzatori specializzati o specializzabili per lo specifico della trascrizione ortografica.
L'annotazione automatica si applica,
come si è osservato sopra, ai livelli più stabili dell'annotazione, in particolare a quello
morfologico-lessicale. In questo caso l'uso di
dizionari automatici generali minimizza le
possibilità di errore.
L'annotazione manuale si applica,
invece, ai livelli meno stabili, come quello
prosodico o quello dialogico-pragmatico. Per
i motivi esposti sopra, sarebbe raccomandabile l'uso di tools, cioè di interfacce che facilitino il compito dell'operatore; in particolare,
sembra opportuno l'utilizzo di un unico tool
adattabile a tutti i livelli. Tuttavia, progetti che
hanno avuto per obiettivo la creazione di un
tale tool, come ad esempio MATE, non
hanno dato esito completamente soddisfacente.
110
5. Un percorso progettuale
Sulla base dell'esperienza maturata
nei precedenti progetti e di raccolta e codifica di corpora di parlato e di quanto esposto
fin qui, si prefigura dunque la necessità di
mettere a punto metodologie specifiche e di
giungere ad una annotazione il più possibile
integrata di diversi livelli della struttura linguistica. Le metodologie impiegate nel progetto,
opportunamente integrate da software dedicato alle fasi specifiche di elaborazione, e di
tecniche standard di trascrizione ed annotazione, potranno risultare applicabili anche a
procedure di analisi di protocolli ad alto
impatto tecnologico.
Obiettivo generale del nostro progetto è
pertanto la costruzione di un ambiente integrato per la produzione di una rappresentazione dei dati che renda disponibili "in linea"
tutte le informazioni acustiche e linguistiche
presenti nel corpus, orientato sia alla fruizione del corpus stesso per finalità strettamente
applicative che agli studi di base.
Il progetto non prevede e non necessita di una fase operativa di acquisizione di
nuovi materiali, che avrebbe come unico
risultato una inutile moltiplicazione di risorse
mai sufficientemente sfruttate nelle loro
potenzialità. Si propone piuttosto di elaborare e sperimentare nuove metodologie e tecniche di codifica, valorizzando le notevoli
risorse linguistiche acquisite in precedenti
progetti nazionali (in particolare CLIPS e
AVIP-API) e mettendo a frutto l'esperienza
inevitabilmente frammentaria, ma proficua,
maturata sia nell'addestramento di personale
scientificamente specializzato, sia nella definizione e applicazione di schemi e sistemi di
annotazione adeguati al tipo di materiale trattato.
Nel dettaglio, gli obiettivi del progetto
possono dunque essere evidenziati nei
seguenti punti:
1) costruire un sistema il più possibile
automatico di annotazione di dialoghi multilivello di un corpus di italiano parlato. Il corpus
troverebbe applicazioni negli studi sulla formalizzazione delle strutture dialogiche nella
progettazione e l'addestramento di sistemi di
riconoscimento automatico del parlato connesso e/o spontaneo, negli studi linguistici di
base sulla lingua italiana;
2) effettuare un'etichettatura multilivello
del piano prosodico, partendo dalle strutture
segmentali a livello di sillaba e giungendo a
quelle soprasegmentali dei patterns tonali,
attraverso l'integrazione di procedimenti di
segmentazione automatici, semiautomatici e
manuali in sillabe e Unità Tonali, di modelli di
rappresentazione e di sistemi di codifica multistandard;
In funzione delle scelte operative che si
effettueranno nel progetto, il file di riferimento
può essere costituito direttamente dalla trascrizione o, in una visione ancora più sofisticata, dal file stesso di segnale allineato allo
sviluppo temporale. Se questo è costituito
dalla trascrizione, la tokenizzazione diviene
operazione preliminare rispetto alle altre, in
quanto è quella che produce il numero di progressivo identificativo delle unità linguistiche;
trascrizion
e
Analisi fonetiche
Tokenizzazione
automatica
Analisi prosodica
dizionari
o
POS-tagging automatico
interfaccia
annotazione dialogica e pragmatica
file di riferimento: annotazione integrata multilivello
3) giungere ad un sistema di allineamento del segnale acustico con le analisi delle
strutture linguistiche di livello 'alto' o 'profondo'
(strutture sintagmatiche, sintattiche e morfosintattiche) e di quelle testuali, integrate con la
codifica prosodica.
5.1 Schema generale
La figura 1 mostra una visione d'insieme dei tools necessari per lo sviluppo del progetto ALMMA.
Lo schema generale di operazione è,
quindi, quello di assumere un nucleo operativo basato sugli strumenti fondamentali della
tokenizzazione automatica e dell'analisi prosodica e una serie di moduli da questi più o
meno direttamente discendenti che riversino i
dati in un unico file che contenga i risultati di
tutti i livelli di annotazione in maniera integrata. Le nuvolette nel grafico rappresentano
strumenti e "conoscenze integrative" esterne
al corpus.
111
se, invece, ci riferiamo al file di segnale, la
linea di riferimento sarà quella temporale ed il
tokenizzatore si limiterà ad aggiungere informazione, identificando le singole unità di base
(le parole). L'analisi prosodica nella sua centralità fungerà da interfaccia fra le componenti linguistiche di "basso" ed "alto" livello.
In questo quadro la scelta del miglior
sistema di annotazione prosodica possibile
per queste finalità risulta fondamentale: nel
nostro progetto ampio spazio sarà destinato al
confronto fra i vari sistemi proposti ed alla
possibilità di generarne di nuovi.
5.2. Le fasi del progetto
Un tale progetto, che si propone un obiettivo non meno ambizioso di altri, ma probabilmente più realisticamente raggiungibile, prevede una doppia linea di operazione: la
messa a punto di software specifico e la sperimentazione su vasti frammenti di corpora. Le
due linee si intersecano continuamente, in
quanto l'utilizzo dei tools che si vengono svi-
luppando di volta in volta ne costituisce un
importante strumento di validazione, proprio in
quanto le diverse tipologie di parlato possono
porre diversi requisiti.
Diamo qui di seguito una descrizione
schematica della struttura e delle varie fasi in
cui si articola il progetto:
M1 (mesi 1-8)
- stato dell'arte, rassegna degli standard
internazionali
- studi di fattibilità
- stesura specifiche di primo livello
(tokenizzazione, annotazioni prosodiche, definizione dei tag sets per il livello lessicale e
morfologico, sintattico, coreferenziale e pragmatico)
- definizione della architettura della
base di dati e delle query più semplici M2
(mesi 6-14)
- predisposizione software (prima fase,
definizione dei tag-set, tools xml, DTD, predisposizione del software per l'analisi prosodica
- addestramento del personale destinato all'annotazione manuale prosodica e
testuale
- selezione dei corpora da etichettare e
da usare come train, test e verifica per gli strumenti automatici
M3 (mesi 12-26)
- annotazione del corpus mediante segmentazione prosodica e relativa etichettatura
- tagging manuale
- analisi delle partizioni del dialogo,
identificazione delle principali strutture e
sequenze caratteristiche di "dialogue acts"in
funzione dell'estrapolazione di strutture del
discorso e di regolarità per il "discourse
parsng".
- predisposizione software (seconda
fase, tools per l'annotazione automatica in
trial-and-error, allineamento temporale di tutte
le etichette, eccetera, verifica delle prestazioni);
M4 (mesi 24-36)
- software (terza fase: parsing e validazione della base di dati)
- valutazioni a posteriori:
112
. confronto fra i vari sistemi di segmentazione prosodica automatici e manuali
. confronto ed eventuale integrazione
modellistica tra i sistemi di codifica prosodica
. caratterizzazione psicologica e pragmatica delle strutture dialogiche
- stesura documentazione finale di progetto
Bibliografia
AVIP
Archivio delle Varietà dell'Italiano Parlato,
COFIN'97, coordinatore P.M.Bertinetto, disponibile gratuitamente ed accessibile all'indirizzo http://www.cirass.unina.it
opp ftp.cirass.unina.it/pub/avip
BNC
The British National Corpus:
http://www.hcu.ox.ac.uk/BNC/
CHILDES:
Mac Whinney, B., 1997, Il progetto CHILDES.
Strumenti per l'analisi del linguaggio parlato,
(edizione italiana a cura di E. Pizzuto e U.
Bortolini), Edizioni del Cerro, Pisa:
http://childes.psy.cmu.edu
CLIPS
Corpora e Lessici di Italiano Parlato e Scritto,
coordinatore F. Albano Leoni, progetto ancora in corso, informazioni all'indirizzo:
http://www.cirass.unina.it
EAGLES:
Gibbon, D., Moore, R., Winski, R., (eds)
1997, Handbook of Standard and Resource
for Spoken Language Systems, Mouton de
Gruyter, Berlin-NewYork.
http://www.ilc.cnr.it/EAGLES/home.html
INTSINT:
Hirst, D., & A. Di Cristo (eds.), 1998,
Intonation Systems. A Survey of Twenty
Languages, Cambridge, Cambridge
University Press:
Savino M., Gili Fivela B. e Bertinetto P.M.,
2000, Trascrizione prosodica, Documento
di progetto, disponibile al sito ftp:
//ftp.cirass.unina.it/cirass/pub/avip/doc_app
http://www.lpl.univ-aix.fr/~hirst/intsint.html;
http://www.lpl.univ-aix.fr/~hirst/prosodie.html.
MATE:
http://mate.nis.sdu.dk/
KIEL Corpus
Kohler, K., Pätzold, M., Simpson, A., 1995,
From scenario to segment. The controlled
elicitation, transcription, segmentation and
labelling of spontaneous speech.
Arbeitsberichte (AIPUK) nr.29, Institut für
Phonetik und digitale Sprachverarbeitung,
Univesität Kiel.
http://www.ipds.uni-kiel.de/forschung/kielcorpus.en.html
TEI:
Johansson, S., 1995, 'The approach of the
Text Encoding Initiative to the encoding of
spoken discourse', in Leech, G., Myers, G.,
Thomas, J., (eds), Spoken English on
Computer. Transcription, Mark-up and
Applications, Longman Publishing, New York,
pp: 82-98.
Burnard, L., 1995, 'The Text Encoding
Initiative: an overview', in Leech, G., Myers,
G., Thomas, J., (eds), Spoken English on
Computer. Transcription, Mark-up and
Applications, Longman Publishing, New York,
pp: 69-81.
http://www.tei-c.org/
LABLITA:
Laboratorio Linguistico del Dipartimento di
Italianistica dell'Università di Firenze,
http://lablita.dit.unifi.it/
MAPTASK:
Thompson, H.S., Anderson, A.H., Bader, M.,
1995, 'Publishing a spoken corpus on CDROM: the HCRC Map Task experience', in
Leech, G., Myers, G., Thomas, J., (eds),
Spoken English on Computer. Transcription,
Mark-up and Applications, Longman
Publishing, New York, pp: 168-181
http://www.hcrc.ed.ac.uk/maptask/
113
NORTALK:
http://www.ling.gu.se/projekt/nordtalk/
TAL
http://www.ilc.cnr.it/viewpage.php/sez=progetti/id=8/vers=ita
TRAINS:
http://www.cs.rochester.edu/research/speech/
trains.html
VERBMOBIL:
Jekat, S., Klein, A., Maier, E., Maleck, I.,
Mast, M., Quantz, J., 1995, 'Dialogue Acts in
VERBMOBIL',
http://verbmobil.dfki.de/