Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche

Transcript

SI-TAL
Documento di Specifiche Tecniche di SI-TAL
Manuale Operativo
Capitolo 5
Dialoghi Annotati per Interfacce vocali
avanzate
–
Specifiche Tecniche
**
Istituto Trentino di Cultura – Istituto per la Ricerca Scientifica e
Tecnologica – (ITC-irst)
Centro Studi e Laboratori Telecomunicazioni – (CSELT)
Consorzio Pisa Ricerche - (CPR)
Linea 1.1 – Dialoghi Annotati
Sommario
1 INTRODUZIONE ..........................................................................................................6
1.1 Nota sull’annotazione multi-livello ................................................................................................................... 7
PARTE I – SPECIFICHE RELATIVE ALLA RACCOLTA DEI DATI ..............................8
1 DESCRIZIONE DEL DOMINIO ....................................................................................9
1.1 Dialoghi macchina/persona................................................................................................................................ 9
1.2 Dialoghi persona/persona .................................................................................................................................. 9
2 MODALITÀ DI ACQUISIZIONE DEI DIALOGHI ........................................................11
2.1 Modalità di acquisizione: dialoghi macchina/persona .................................................................................. 11
2.2 Modalità di acquisizione: dialoghi persona/persona ..................................................................................... 13
3 CRITERI DI TRASCRIZIONE.....................................................................................15
PARTE II – SPECIFICHE RELATIVE ALL’ANNOTAZIONE ........................................17
SEZIONE I: STATO DELL’ARTE DELL’ANNOTAZIONE DI DIALOGHI .....................17
1 LIVELLO PROSODICO..............................................................................................18
1.1 Introduzione...................................................................................................................................................... 19
1.2 I fenomeni prosodici......................................................................................................................................... 19
1.2.1 Gli eventi prosodici linguistici.................................................................................................................. 19
1.2.2 I correlati fonetici della prosodia .............................................................................................................. 21
1.2.3 La trascrizione prosodica .......................................................................................................................... 23
1.3 Presentazione e analisi degli schemi di annotazione...................................................................................... 25
1.3.1 TEI ............................................................................................................................................................ 25
1.3.2 ToBI.......................................................................................................................................................... 30
1.4 Il meta-schema per l’annotazione prosodica del progetto MATE ............................................................... 35
2 LIVELLO MORFOSINTATTICO E SINTATTICO .......................................................36
2.1 Introduzione...................................................................................................................................................... 37
2.2 Annotazione morfosintattica e sintattica ........................................................................................................ 37
2.3 Annotazione morfosintattica e sintattica della lingua parlata...................................................................... 40
2.3.1 Annotazione morfosintattica della lingua parlata...................................................................................... 40
2.3.2 Annotazione sintattica della lingua parlata ............................................................................................... 50
E-2
2.4 Raccomandazioni preliminari ......................................................................................................................... 57
3 LIVELLO CONCETTUALE ........................................................................................58
3.1 Introduzione...................................................................................................................................................... 59
3.2 Criteri utilizzati per il confronto degli schemi ............................................................................................... 60
3.3 Indice degli schemi di annotazione esaminati ................................................................................................ 61
3.3.1 ATIS ......................................................................................................................................................... 62
3.3.2 VERBMOBIL........................................................................................................................................... 67
3.3.3 Coconut..................................................................................................................................................... 70
3.3.4 C-Star........................................................................................................................................................ 72
3.3.5 Riepilogo................................................................................................................................................... 82
3.3.6 Conclusioni ............................................................................................................................................... 83
4 LIVELLO PRAGMATICO ...........................................................................................84
4.1 Overview ........................................................................................................................................................... 85
4.2 Introduzione...................................................................................................................................................... 85
4.2.1 L’annotazione degli atti linguistici ........................................................................................................... 86
4.3 Criteri utilizzati per la descrizione degli schemi............................................................................................ 87
4.4 Elenco degli schemi di annotazione esaminati ............................................................................................... 89
4.4.1 Alparon ..................................................................................................................................................... 89
4.4.2 Schema di annotazione dell’Università di Chiba ...................................................................................... 93
4.4.3 Chat........................................................................................................................................................... 96
4.4.4 COCONUT ............................................................................................................................................. 103
4.4.5 Schema di annotazione di Condon e Cech.............................................................................................. 106
4.4.6 C-STAR .................................................................................................................................................. 109
4.4.7 DAMSL .................................................................................................................................................. 111
4.4.8 Dialogos.................................................................................................................................................. 115
4.4.9 GDA (Global Document Annotation)..................................................................................................... 118
4.4.10 Janus ....................................................................................................................................................... 121
4.4.11 Schema di annotazione di Giovanni Flammia ........................................................................................ 123
4.4.12 LinLin ..................................................................................................................................................... 125
4.4.13 Maptask................................................................................................................................................... 127
4.4.14 Schema di annotazione di Christine Nakatani ........................................................................................ 130
4.4.15 SLSA ...................................................................................................................................................... 134
4.4.16 Schema di annotazione del progetto Switchboard SWDB-DAMSL....................................................... 137
4.4.17 Schema di annotazione di David Traum ................................................................................................. 140
4.4.18 Schema di annotazione del progetto Verbmobil ..................................................................................... 144
SEZIONE II - SPECIFICHE DELL’ANNOTAZIONE IN SI-TAL...................................146
1 ARCHITETTURA GENERALE DI ANNOTAZIONE .................................................147
2 LIVELLO PROSODICO............................................................................................149
2.1 Requisiti........................................................................................................................................................... 150
2.2 Il “meta-schema” di MATE per l’annotazione prosodica........................................................................... 150
2.2.1 Il “meta-schema” .................................................................................................................................... 151
2.2.2 Schemi di annotazione rappresentabili nel “meta-schema” ................................................................... 152
E-3
3 LIVELLO MORFOSINTATTICO E SINTATTICO .....................................................154
3.1 Introduzione.................................................................................................................................................... 155
3.1.1 Il metodo: approccio normalizzante vs. non-normalizzante ................................................................... 156
3.1.2 Articolazione interna dello schema di annotazione morfosintattica e sintattica ..................................... 157
3.1.3 Trascrizione emendata ............................................................................................................................ 158
3.2 Specifiche di annotazione per il livello morfosintattico............................................................................... 162
3.2.1 Il tagset per l’annotazione morfosintattica.............................................................................................. 162
3.2.2 Estensioni del tagset................................................................................................................................ 176
3.3 Specifiche di annotazione per il livello sintattico ......................................................................................... 187
3.3.1 Shallow Parsing ...................................................................................................................................... 188
3.3.2 Chunking................................................................................................................................................. 189
3.3.3 Applicazione dello schema all’analisi del parlato................................................................................... 198
3.3.4 Conclusioni ............................................................................................................................................. 203
4 LIVELLO CONCETTUALE ......................................................................................205
4.1 Introduzione.................................................................................................................................................... 206
4.2 Discussione ...................................................................................................................................................... 206
4.3 Proposta........................................................................................................................................................... 207
4.3.1 Espressioni temporali.............................................................................................................................. 207
4.3.2 Espressioni dipendenti dal dominio ........................................................................................................ 211
5 LIVELLO PRAGMATICO .........................................................................................212
5.1 Valutazione degli schemi di annotazione...................................................................................................... 213
5.1.1 Tavole di valutazione generale ............................................................................................................... 215
5.1.2 Tavole di confronto delle etichette e dei fenomeni annotati a seconda del dominio............................... 220
5.2 Confronto delle etichette previste negli schemi analizzati ed evidenziazione delle comunalità............... 225
5.2.1 Tavole di evidenziazione delle comunanze tra gli schemi di annotazione esaminati.............................. 226
5.3 Indicazioni di best-practice............................................................................................................................ 240
5.3.1 Descrizione delle etichette consigliate .................................................................................................... 243
5.3.2 Valutazione dello schema di annotazione consigliato............................................................................. 249
PARTE III - SPECIFICHE RELATIVE AL SOFTWARE PER L’ANNOTAZIONE .......251
1 STATO DELL’ARTE DEGLI STRUMENTI SOFTWARE .........................................252
1.1 Introduzione.................................................................................................................................................... 253
1.2 Criteri utilizzati per il confronto degli strumenti software......................................................................... 253
1.3 Indice degli strumenti esaminati ................................................................................................................... 254
1.3.1 ALEMBIC (MITRE CORPORATION) ................................................................................................. 255
1.3.2 ANNOTAG............................................................................................................................................. 260
1.3.3 CLAN ..................................................................................................................................................... 262
1.3.4 DAT (Dialogue Annotation Tool)........................................................................................................... 264
1.3.5 DiET (Diagnostic and Evaluation Tools for natural language applications)........................................... 268
1.3.6 EMU ....................................................................................................................................................... 273
1.3.7 Entropic Signal Processing System (esps/xwaves+)............................................................................... 275
1.3.8 FRINGE (Università di Edinburgo)........................................................................................................ 278
1.3.9 MATE (Multilevel Annotation, Tools Engineering)............................................................................... 281
E-4
1.3.10 Nb – Nota Bene....................................................................................................................................... 283
1.3.11 TATOE ................................................................................................................................................... 289
1.3.12 TRANSCRIBER..................................................................................................................................... 294
1.4 Tavole comparative ........................................................................................................................................ 297
2 SPECIFICHE SOFTWARE.......................................................................................299
2.1 Introduzione.................................................................................................................................................... 300
2.2 Il Tool di MATE ............................................................................................................................................. 301
2.2.1 Introduzione............................................................................................................................................ 301
2.2.2 Approccio ............................................................................................................................................... 302
2.2.3 La rappresentazione interna dei corpora codificati in XML ................................................................... 303
2.2.4 Il linguaggio ed il processore di ricerca .................................................................................................. 304
2.2.5 Il linguaggio e il processore di stylesheet ............................................................................................... 307
2.2.6 L’interfaccia utente ................................................................................................................................. 309
2.2.7 Gli oggetti di visualizzazione.................................................................................................................. 323
2.2.8 Conclusioni ............................................................................................................................................. 323
2.2.9 Appendice ............................................................................................................................................... 324
RIFERIMENTI BIBLIOGRAFICI..................................................................................325
APPENDICE - SPECIFICA XML DELLE TRASCRIZIONI ORTOGRAFICHE............333
E-5
Dialoghi Annotati per Interfacce vocali
avanzate
–
Specifiche Tecniche
____________________________
1 Introduzione
I corpora rivestono un’importanza fondamentale nelle applicazioni vocali. Poiché i loro costi
sono molto alti, è essenziale che la loro acquisizione e annotazione sia progettata in modo da
favorire quanto più possibile il loro riutilizzo sia da soli che assieme ad altri corpora. Infatti, la
prima fase del processo di preparazione di una nuova applicazione, prevede normalmente l’esame di
tutte le risorse accessibili, allo scopo di valutarne l’usabilità per l'applicazione in esame.
Spesso un solo corpus non è sufficiente per l’obiettivo che ci si propone: in questi casi, una
soluzione da prendere in esame è la sua integrazione con altri corpora disponibili, anche se essi in
genere sono stati raccolti con finalità diverse. Inoltre, è possibile che il progetto preveda
l’acquisizione di altri dati strettamente finalizzati all’applicazione in esame.
Perché tutti questi dati possano essere utilizzati assieme, è essenziale che sia i file di segnale
acustico, che le trascrizioni e le annotazioni siano compatibili tra loro. Per questa ragione, nella
preparazione di un corpus è importante adeguarsi quanto più possibile a standard, laddove esistano,
o comunque a prassi diffuse. In questo capitolo verranno quindi esaminate le diverse proposte
avanzate per la trascrizione e l'annotazione dei corpora ai vari livelli.
Strettamente legato al problema dei formati di annotazione, è il problema delle caratteristiche
necessarie alle applicazioni software in modo da poter funzionare in modo sufficientemente
uniforme sui diversi corpora sia per la loro annotazione che per la ricerca.
A partire dallo studio dello stato dell’arte, verranno quindi messe a punto le specifiche sia per
l’annotazione che per gli strumenti software. A questo livello, le specifiche devono prescindere
dalla scelta del dominio di applicazione, in modo da poter avere una parte della definizione
dell’annotazione che sia indipendente dal dominio. Più è ampia la parte indipendente da dominio,
più l’annotazione risultante sarà facilmente portabile su nuovi domini applicativi. Infatti, si potrà
partire da una base comune a tutti i domini, come ad esempio le espressioni temporali, che ricorrono
nella maggior parte dei domini, per poi sviluppare la parte caratteristica del dominio in esame.
Solo in una seconda fase, poi, verrà sviluppata la parte specifica dei domini applicativi scelti, la
cui descrizione viene comunque data in questo documento. Si noti che nella scelta del dominio
E-6
applicativo diventa essenziale distinguere almeno tra due grandi classi di applicazioni: le interfacce
uomo/macchina e quelle uomo/uomo, mediate dalla macchina.
Il caso di interazioni uomo/macchina generalmente prevede dialoghi in cui l’utente chiede
informazioni ad un’applicazione automatica. La scelta del dominio corrisponde quindi alla scelta
del tipo di informazioni che l'applicazione è in grado di fornire. L’applicazione può inoltre essere
arricchita da eventuali richieste di azioni da parte dell'utente, quali ad esempio richieste di
prenotazioni.
Nel caso di dialoghi uomo/uomo, invece, il tipo di applicazione tipica è quella di una mediazione
della macchina, che può avere diversi obiettivi, quali ad esempio seguire e riassumere la
conversazione o facilitare la comunicazione tra parlatori di lingua diversa attraverso
un’applicazione di traduzione automatica.
1.1
Nota sull’annotazione multi-livello
In questo deliverable e nelle sezioni del capitolato tecnico di SI-TAL riguardanti il tema
dell’annotazione di dialoghi si fa spesso riferimento al fatto che lo strumento di annotazione
adottato deve consentire un’attività di annotazione su più livelli. In questo paragrafo vogliamo
chiarire e precisare il significato di questo requisito e le sue implicazioni per gli schemi di
annotazione proposti.
L’annotazione di un testo, sia esso un dialogo tra persone, un monologo o un dialogo tra un
agente umano ed un agente artificiale, può essere effettuata in base ad esigenze specifiche volte ad
evidenziare nel testo fenomeni propriamente descritti, a livello teorico, nelle diverse branche della
linguistica. In questo senso un ambiente di annotazione multi-livello deve consentire di annotare un
testo prevedendo la possibilità di marcare fenomeni linguistici che si collocano a livelli di
astrazione diversa. Lo schema di annotazione di SI-TAL soddisfa questo requisito permettendo di
annotare i dialoghi su diversi livelli di descrizione fenomenologica (prosodica, morfo-sintattica,
concettuale e pragmatica). Inoltre lo strumento software che implementerà gli schemi di
annotazione individuati per i diversi livelli sarà in grado di effettuare, a partire da un livello,
interrogazioni circa la presenza di correlazioni tra fenomeni annotati a livelli diversi.
Tuttavia, le esigenze di articolazione dell’annotazione su livelli molteplici si possono riscontrare
anche all’interno di ciascuno dei livelli di descrizione sopra individuati. Nel caso di SI-TAL questo
si verifica nel caso dell’annotazione prosodica. Nel capitolo dedicato alle specifiche per
l’annotazione prosodica viene particolarmente evidenziato come un approccio integrato
all’annotazione debba in quel caso tener conto dell’inter-relazione tra livelli diversi di
rappresentazione delle unità di descrizione (che saranno chiamati ‘elementi’ nelle specifiche). Per
esempio, per associare un evento intonativo come l’accento sia alla parola (livello ortografico) che
alla sillaba o vocale in cui l’accento si realizza (livello di trascrizione fonetica), che alla
configurazione corrispondente di ‘pitch movement’ (livello di descrizione fonetica di f0), i due
livelli fonetici, destinati alla segmentazione in fonemi e alla descrizione di f0, devono essere
direttamente allineati con il segnale vocale.
E-7
PARTE I – SPECIFICHE RELATIVE ALLA RACCOLTA DEI DATI
E-8
1 Descrizione del dominio
Per varie ragioni, molti dei corpora di dialoghi raccolti nelle varie lingue riguardano il dominio
turistico (ATIS, Verbmobil, C-Star). Adeguarci a questa scelta ci permette di avere un termine di
confronto nelle scelte compiute e anche di creare sinergie cosicché i dati prodotti possano essere
confrontati ed eventualmente integrati con altri.
E` d'altra parte evidente che dialoghi che si realizzano tra un utente e una macchina sono
sostanzialmente diversi da quelli che hanno luogo tra due persone. Infatti nel primo caso il ruolo
della macchina non può essere creativo come quello ricoperto da una persona.
Nella scelta del dominio di raccolta dei dialoghi si è fatto tesoro di questa osservazione. Se
quindi il dominio considerato è sempre quello turistico, nel caso dei dialoghi persona/macchina lo si
è ristretto alla sola richiesta di informazioni sugli orari dei voli. I dialoghi persona/persona
corrispondono invece a negoziazioni più complesse in cui si discute di un viaggio nella sua
interezza, includendo non solo i trasporti, ovvero treni e aerei, ma anche l'albergo e informazioni
turistiche.
1.1
Dialoghi macchina/persona
Il dominio delle conversazioni persona/macchina riguarda la richiesta di orari di collegamenti
aerei. Il dialogo tra il cliente ed il sistema di dialogo avviene esclusivamente a voce utilizzando il
telefono, tuttavia l'utente può consultare successivamente i dati reperiti dal sistema collegandosi ad
una pagina Web il cui indirizzo viene comunicato durante il dialogo.
Il cliente deve organizzare un viaggio aereo sia per motivi di lavoro che per esigenze turistiche.
Componendo il numero di telefono del sistema automatico, il cliente viene accolto con un
messaggio di benvenuto ed invitato a comunicare la partenza e la destinazione del volo di andata.
Gli altri requisiti che identificano la richiesta sono la data e l'orario in cui il cliente desidera
effettuare il viaggio e l'eventuale preferenza per una linea aerea. Dopo aver individuato uno o più
collegamenti aerei che soddisfano i requisiti del cliente, il sistema automatico propone al cliente di
effettuare la ricerca di informazioni relative al viaggio di ritorno (senza tuttavia vincolare il cliente
a percorrere la medesima tratta dell'andata).
1.2
Dialoghi persona/persona
Come si diceva sopra, il dominio della conversazione è l'organizzazione di un viaggio,
comprensivo sia dei trasporti che di prenotazioni alberghiere e di informazioni turistiche. Durante
il dialogo, la comunicazione tra i due parlanti deve essere basata esclusivamente sul linguaggio
parlato. Di conseguenza le due persone non devono essere in contatto visivo, né in generale in
grado di scambiarsi informazioni mediante canali diversi dalla voce.
Uno dei due parlanti deve organizzare un viaggio secondo alcune sue esigenze. Ne parla con un
agente di viaggi in modo da trovare una soluzione soddisfacente. L'agente illustra al potenziale
cliente delle possibili alternative, cercando di trovarne una che risponda alle sue esigenze. La
negoziazione può concludersi con un successo, nel caso in cui il cliente decida di fare la
prenotazione; con un fallimento, se il cliente non trova nessuna combinazione che lo soddisfi; o con
E-9
una sospensione, per cui il cliente lascia in sospeso la conversazione, di solito promettendo di
riprenderla in un tempo successivo.
Dato questo scenario generale, si possono individuare poi dei sotto-domini, sempre nell'ambito
turistico, in cui avviene la negoziazione. Il primo è l'organizzazione dei mezzi di trasporto: treno o
aereo. Il cliente può scegliere a priori uno dei due mezzi o confrontare le due alternative per
scegliere la migliore. I due interlocutori parleranno quindi degli orari, dei prezzi, del tipo di posto e
di mezzo richiesto -- fumatori o non fumatori, classe, tipo di treno, scali intermedi e così via.
Un secondo possibile dominio riguarda la scelta e la prenotazione di una camera d'albergo.
Anche in questo caso il cliente esprime particolari esigenze e può scegliere tra un certo numero di
possibilità. Può porre richieste sul tipo di camera, di albergo, su eventuali servizi offerti, quali
parcheggio privato, sauna, piscina, sale conferenze, e così via.
Una volta che il turista ha organizzato gli aspetti logistici, passa ad interessarsi delle cose da
visitare e delle attività da svolgere nella località in cui si trova. Può quindi chiedere informazioni
riguardanti: monumenti, chiese e musei, in particolare orari di apertura e prezzi dei biglietti di
ingresso; spettacoli in programma sul posto, con anche la possibilità di prenotare i biglietti; e così
via.
Un'ulteriore possibilità consiste nel considerare tutti questi aspetti insieme, e quindi trattare interi
pacchetti turistici. Il pacchetto comprende la prenotazione per un certo periodo dell'albergo, a
pensione completa o a mezza pensione. In molti casi esso comprende anche attività che possono
essere sportive (sci, arrampicata, tennis) o culturali (visite a località di interesse, musei, castelli).
E-10
2 Modalità di acquisizione dei dialoghi
Lo sviluppo di applicazioni di elaborazione del parlato basate su corpora parte da un'ipotesi di
base: che i dati raccolti nei corpora siano un esempio completo e accurato dei dialoghi su cui il
sistema, una volta sviluppato, dovrà lavorare. Ma per poter ottenere tali dati, occorrerebbe poter
disporre del sistema, in modo da poter raccogliere, trascrivere ed annotare le interazioni tra l'utente
e il sistema nel caso di dialoghi uomo/macchina, o tra due utenti con l'interazione del sistema nel
caso di dialoghi uomo/uomo.
Si ottiene quindi un paradosso, per cui occorrono i dati per sviluppare il sistema e,
contemporaneamente, occorre il sistema per poter raccogliere i dati. Il problema viene risolto
mediante un approccio per approssimazioni successive. In una prima fase, si usano dei dati poco
accurati per poter costruire una prima versione del sistema. In seguito, si usano versioni via via più
sofisticate del sistema per raccogliere dati sempre più accurati, che verranno a loro volta utilizzati
per costruire nuove versioni del sistema.
I dati utilizzati per la prima fase vengono raccolti in modi diversi, a seconda sia del tipo di
applicazione considerata, che di diverse scelte progettuali. Per quel che riguarda le applicazioni
uomo/macchina, spesso si usa quella che viene chiamata la tecnica del Mago di Oz: il sistema da
sviluppare viene simulato da un agente umano, aiutato da opportuni strumenti software. Ad
esempio, in un'applicazione di richiesta di accesso ad una base di dati, la richiesta dell'utente può
venir raccolta e trascritta da un agente (il mago di Oz, appunto), nascosto all'utente, che la converte
in un'interrogazione da inoltrare alla base di dati. La risposta della base di dati può invece essere
presentata direttamente all'utente, che in questo modo pensa di essere veramente di fronte ad un
sistema automatico e si comporterà come si comporterebbe col sistema reale. Il problema
principale, in questo caso, è proprio quello di simulare correttamente le limitazioni di quello che
sarà il sistema reale (il corretto tasso di riconoscimento acustico, ad esempio).
Non appena, quindi, si rende disponibile un sistema reale, conviene usare quello per raccogliere i
dati: in questo modo si ottengono delle interazioni molto più verosimili e si possono affrontare
anche tutti quei problemi tipici delle applicazioni reali, quali la gestione degli errori di
riconoscimento. Poiché CSELT ha sviluppato un sistema di risposta automatica ad interrogazioni
vocali tramite telefono, la soluzione migliore per ottenere dei dati il più possibile utilizzabili è parsa
quindi quella di usare tale sistema per la raccolta dei dialoghi uomo/macchina. Questa scelta ha
inoltre reso possibile la scelta di utenti con caratteristiche corrispondenti ad un'applicazione reale.
Nel caso di applicazioni uomo/uomo, invece, si può, in prima approssimazione, trascurare la
mediazione della macchina e considerare l'interazione diretta tra i due utenti. Ovviamente questo
corrisponde alla situazione ideale di una mediazione perfetta da parte del sistema. D'altra parte,
questo permette di rendere i dati indipendenti dai tipi di applicazione per la quale saranno poi usati,
che possono essere molto diversi tra loro, spaziando da sistemi di traduzione da parlato a parlato a
sistemi di monitoraggio e riassunto di conversazioni.
2.1
Modalità di acquisizione: dialoghi macchina/persona
Le conversazioni macchina/persona avvengono tra una persona che finge di essere un potenziale
utente che chiama un sistema automatico di informazioni sugli orari dei voli ed il sistema stesso.
Tale conversazioni vengono poi acquisite e registrate nei formati richiesti.
E-11
Il collegamento tra l’utente ed il sistema avviene per mezzo della rete telefonica pubblica. Per
rispecchiare il più possibile la situazione reale, i potenziali utenti, opportunamente suddivisi,
chiamano da: a) un telefono fisso, che può a sua volta trovarsi in ambiente relativamente silenzioso
(casa/ufficio) o in ambiente rumoroso (cabina pubblica); b) un telefono cellulare, sia in un ambiente
rumoroso (strada, treno...) che in un ambiente più silenzioso (casa/ufficio); c) un telefono cordless
in ambiente domestico.
Tutti i potenziali utenti sono esterni al gruppo degli sviluppatori del sistema CSELT e non hanno
mai provato estensivamente il sistema.
Prima di interagire con il sistema, il soggetto sperimentale riceve una breve descrizione del
sistema e del tipo di informazioni con esso ottenibili. Gli viene inoltre consegnata una scheda
contenente i dati necessari allo svolgimento del dialogo.
La scheda contiene una breve descrizione dello scenario. I dati che il soggetto sperimentale deve
utilizzare durante la conversazione sono presentati in modo schematico, in modo tale da non
orientare l'uso di un determinato vocabolario o di determinate espressioni linguistiche. Alcuni dati
(ad es. la data e l'orario di partenza) vengono lasciati liberi e possono venire scelti dal parlante in
modo arbitrario.
Ad ogni soggetto sperimentale viene chiesto di effettuare quattro dialoghi, ognuno riguardante
uno scenario diverso.
Qui di seguito presentiamo un esempio di un potenziale scenario:
VIAGGIO DI ANDATA:
CITTÀ DI PARTENZA: Milano
DESTINAZIONE: Los Angeles
DATA E ORARIO: liberi
COMPAGNIA AEREA: Lufthansa
VIAGGIO DI RITORNO:
CITTA' DI PARTENZA: San Francisco
DESTINAZIONE: Milano
DATA E ORARIO: liberi
COMPAGNIA AEREA: Lufthansa
Per le registrazioni si impiega il seguente supporto:
PC Win-NT Workstation (Pentium II, 300MHz, 250 Mb) dotato di una scheda telefonica
Dialogic (D41ESC o D41H).
Il segnale, campionato a 8 kHz, viene salvato sul disco della workstation in formato binario PCM
(mu-Law). Ogni turno dell’utente viene salvato in un file. Ad ogni file di voce viene associato un
file di “labelling”, che contiene le dimensioni del file di voce e i punti di aggancio e sgancio
dell’end point. I turni vengono segmentati automaticamente e riconosciuti in una sequenza di parole
utilizzando una tecnica di riconoscimento ibrido neurale e Markoviano.
E-12
2.2
Modalità di acquisizione: dialoghi persona/persona
Le conversazioni persona/persona vengono simulate da due persone che fingono di essere un
agente di viaggi e un potenziale cliente. Tali conversazioni vengono poi acquisite e registrate nei
formati richiesti.
Le simulazioni vengono eseguite in una stanza isolata acusticamente. In questa stanza si trovano
i due parlatori, mentre un operatore che controlla le registrazioni si trova nella sala regia, da cui
vede l'interno della sala acquisizioni. Tramite altoparlanti l'operatore è anche in grado di seguire la
conversazione.
I due parlatori sono seduti in modo da non vedersi l'uno con l'altro e da sentirsi solo attraverso
delle cuffie. Il parlatore che ricopre il ruolo dell'agente viene addestrato in modo da avere le
competenze necessarie a rispondere alle domande del cliente, e a fargli delle offerte. Questo ruolo
richiede una preparazione più accurata e viene quindi ricoperto da un numero limitato di parlatori
diversi.
Il cliente, invece, viene istruito sulle modalità con cui si svolgerà la conversazione subito prima
dell'acquisizione. Durante l'acquisizione, il cliente ha in mano una scheda con tutti i dati necessari
allo svolgimento del dialogo.
Tale scheda contiene una breve descrizione dello scenario. Ad esempio:
Ti chiami Annamaria Degasperi e telefoni ad un'agenzia di viaggi di Roma perché devi andare in aereo
da Roma a Verona con un'amica. Ti servono informazioni su orari e prezzi ed eventualmente deciderai di
fare la prenotazione o le prenotazioni. Se riesci a prenotare, passerai in agenzia a ritirare i biglietti e
saldare il conto di lì a qualche giorno; se necessario, puoi lasciare il numero di carta di credito come
garanzia.
I dati che il parlatore deve avere sott'occhio durante la conversazione sono riassunti in una
tabella, nel modo più schematico possibile per non influenzare il suo modo di esprimersi, o per lo
meno da minimizzare il più possibile un'eventuale influenza. Ad esempio:
-
INTERLOCUTORE: impiegato dell'agenzia viaggi
-
IN VIAGGIO DA: Roma
-
DESTINAZIONE: Verona
-
MEZZO DI TRASPORTO: aereo
-
NUMERO POSTI: 2
-
ANDATA: domenica, 12 settembre 1999
-
RITORNO: mercoledì 15 settembre 1999
-
CARTA DI CREDITO:

TITOLARE: Annamaria Degasperi

NUMERO: 1 2 3 4 5 6 7 8 9

DATA DI SCADENZA: 31 dicembre 2001
E-13
Si noti che i dati sono interscambiabili, in modo che il materiale sia utilizzabile a prescindere
dalle caratteristiche contingenti della conversazione. I nomi delle città, le date, i prezzi devono poter
essere sostituiti con quelli più aderenti alla conversazione. La parte più importante è costituita dalla
struttura del dialogo e dei singoli turni, a prescindere da tali valori. Questi vengono scelti in modo
verosimile e noto all'utente essenzialmente per facilitare le simulazioni.
Per le registrazioni si impiega la seguente catena audio:
1) 3 microfoni AKG D3700/D;
2) Mixer;
3) Workstation HP735 dotata di scheda audio a 16 bit e di relativi drivers.
Il segnale, campionato a 16 kHz, viene prima trasferito sul disco della workstation in formato
binario e successivamente convertito in formato "sphere". In seguito esso viene suddiviso in turni,
generando così un file per ogni turno. I turni vengono a loro volta segmentati automaticamente sia
in parole che in fonemi, utilizzando una tecnica di allineamento basata su modelli di Markov
nascosti.
E-14
3 Criteri di trascrizione
La trascrizione è intesa come trascrizione ortografica, lessicale, alla quale vengono aggiunti
alcuni dettagli che rappresentano fenomeni extralinguistici udibili presenti nella forma d’onda
corrispondente. Queste indicazioni aggiuntive facilitano l’interpretazione della trascrizione
dell’enunciato.
•
Tutto quanto detto dai parlanti viene trascritto in minuscolo, compresi l'inizio di frasi e turni, i
nomi propri, di città ecc.:
devo andare da venezia a firenze
•
Non viene usato nessun tipo di punteggiatura.
•
Numeri:
Vengono scritti per esteso. Ad es.:
quattro ottobre alle quindici e trenta
due cento cinquanta sei
•
Spelling/parole sillabate:
Nella trascrizione di parole sillabate si mette il segno “_” tra le varie sillabe:
mon_te_ca_ti_ni
•
Parole pronunciate male ma intelleggibili:
-
parola corretta*
firenze* (ad esempio nel caso della parola “Firenze” pronunciata male da un parlante staniero)
Si noti che attualmente questa e` la pratica corrente in CSELT, ma le raccomandazioni del
progetto SpeechDat suggeriscono di trascrivere facendo precedere la parola in oggetto da un
asterisco, in questo modo: *parola corretta.
•
Parole inintelleggibili o insulti: **
•
Parole tronche (sia troncate dal parlante che dal sistema):
Se possibile, si segnala la parola completa, aggiungendo il segno “~” all’inizio o alla fine della
parola a seconda del punto in cui si verifica il troncamento. Ad esempio:
~domani : troncamento iniziale
domani~ : troncamento finale
~domani : troncamento iniziale e finale
E-15
Se è difficile risalire alla parola completa, si mette il segno “~” prima o dopo la parte
riconosciuta. Ad esempio:
~ale : troncamento iniziale
ale~ : troncamento finale
•
Ripetizioni di parole:
Quando un parlante ripete una parola appena detta, o riprende una frase dopo essersi accorto di
aver pronunciato una parola corretta ma diversa da quella prevista, si trascrive tutto quanto per
esteso. Ad esempio:
parto alle alle dieci
domenica alle nove no alle nove e trenta
•
Sovrapposizione di due parlatori:
Quando due turni sono (parzialmente) sovrapposti, la trascrizione non tiene conto della
sovrapposizione, ma spezza i turni in modo da rendere il fenomeno al meglio possibile:
spkA:
spkB:
spkA:
spkB:
•
allora va bene il primo treno quello
si` direi che
delle sei
va bene
Fenomeni extralinguistici:
Sono stati individuati quattro tipi di fenomeni extralinguistici, due originati dai parlanti, e due
originati da fonti esterne. I fenomeni che rientrano in queste quattro categorie vengono trascritti con
quattro simboli compresi tra parentesi quadre [ ], separati dalle parole circostanti con uno spazio.
Quando il fenomeno extralinguistico in questione riguarda più parole, si trascrive il [simbolo] prima
della prima parola interessata; quando si verificano contemporaneamente più fenomeni
extralinguistici diversi, si riportano i vari [simboli] in sequenza.
[fil]
[spk]
[sta]
[int]
Tutti i tipi di esitazione vocalizzata (“filled pauses” come “eh”, “hmm”, ecc.)
Rumori prodotti dal parlante: tosse, soffio, respiro, schiocco, risata, schiarimento di
voce, ecc.
Rumori più o meno continui come rumori stradali, rumori di automobili, di luoghi
pubblici, brusio di feste, ecc.
Rumori intermittenti nel senso di non continui, cioè che si sentono una sola volta
(colpi), o hanno pause tra ogni suono (telefono che squilla), o cambiano sempre
(musica). Sono compresi in questa categoria: voci in sottofondo, bambini che
piangono, abbiare di cani, telefono che squilla, musica, campanelli, porta che sbatte,
ecc.
In Appendice è riportata la DTD per la rappresentazione in XML delle specifiche qui descritte.
E-16
PARTE II – SPECIFICHE RELATIVE ALL’ANNOTAZIONE
SEZIONE I: STATO DELL’ARTE DELL’ANNOTAZIONE DI
DIALOGHI
E-17
1 Livello prosodico
E-18
1.1
Introduzione
Lo scopo di questo stato dell’arte è quello di fornire informazioni di base per le specifiche di
annotazione del livello prosodico che saranno adottate all’interno del progetto SI-TAL.
In primo luogo verranno effettuate una descrizione delle problematiche connesse all’annotazione
prosodica e una presentazione dei fenomeni che è necessario analizzare in una descrizione
linguistica della prosodia. In seguito si procederà alla presentazione e alla descrizione dettagliata dei
due schemi di annotazione della prosodia da noi considerati più rilevanti ai fini del progetto SITAL.
1.2
I fenomeni prosodici
Il termine “prosodia” viene impiegato per fare riferimento ad un’ampia gamma di fatti, concetti e
fenomeni, identificati partendo da teorie diverse ed analizzando ambiti differenti. Uno dei primi
problemi che è necessario affrontare quando ci si accinge a studiare i fenomeni prosodici (e, di
conseguenza, il modo in cui essi vengono rappresentati) è quindi la definizione del concetto stesso
di prosodia e dell’ampiezza del suo raggio d’azione.
La descrizione della prosodia di ogni lingua può essere affrontata avendo come punto di partenza
due posizioni opposte e complementari:
1) Da un punto di vista linguistico, la descrizione della prosodia può essere vista come la
descrizione di una serie di unità soprasegmentali (sillabe, gruppi accentuali, unità intonative) e
di fenomeni soprasegmentali (accento, intonazione, ritmo).
2) Da un punto di vista fonetico, la descrizione della prosodia è invece principalmente affrontata
come descrizione dei diversi correlati fonetici (lunghezza, volume, variazioni di F0) dei
fenomeni prosodici linguisticamente rilevanti.
Alla luce di questa distinzione, i fenomeni prosodici possono essere classificati in due gruppi
principali che, pur essendo strettamente correlati, possono venire descritti separatamente: un primo
gruppo di eventi prosodici “linguistici”, e un secondo gruppo di eventi prosodici fonetici.
1.2.1 Gli eventi prosodici linguistici
Nella descrizione linguistica della prosodia (in particolar modo da un punto di vista fonologico)
vengono generalmente analizzati due tipi di item prosodici: un insieme di unità prosodiche (unità
fonologiche di ampiezza maggiore a quella del segmento), e un insieme di fenomeni prosodici
“sovraimposti” a dette unità.
1.2.1.1 Le unità prosodiche
Negli studi sulla prosodia sono stati proposti parecchi tipi di unità prosodiche, che si
differenziano principalmente per la loro portata :
•
Paragrafi
•
Frasi
E-19
•
Gruppi intonativi
•
Gruppi intermedi
•
Gruppi accentuali
•
Piedi
•
Sillabe
•
More
Non è scopo di questo rapporto presentare una descrizione dettagliata di ognuna della suddette
unità. Nonostante alcune di queste unità siano state proposte dopo aver effettuato ricerche
sperimentali (come nel caso dei paragrafi), cioè facendo uso di dati fonetici, la maggior parte di esse
vengono principalmente impiegate in analisi fonologiche. Oltre ad avere in comune la caratteristica
secondo cui la loro ampiezza è sempre maggiore di quella di un segmento, tutte condividono inoltre
il fatto di essere state proposte come il dominio naturale di specifici processi segmentali o
soprasegmentali (cfr., ad esempio, Nespor & Vogel 1986).
1.2.1.2 Fenomeni prosodici
In questo rapporto, il termine “fenomeni prosodici” racchiude l’intonazione, l’accento, il ritmo e
la velocità di eloquio. Non si tratta di unità, ma di fenomeni che avvengono generalmente in un
dominio/ambito specifico; sono inoltre portatori di un certo tipo di significato linguistico (o
paralinguistico).
1) Intonazione
Secondo Roach (1983:112), “no definition [of prosody] is completely satisfactory, but any
attempt at a definition must recognize that the pitch of the voice plays the most important part”.
Non è ancora stata data alcuna definizione precisa ed universale dell’”intonazione”, ma esiste
comunque un accordo generale su alcuni aspetti: in primo luogo, l’intonazione è chiaramente
relazionata all’ F0, nonostante determini cambiamenti anche in altri parametri fonetici (ad esempio
nella lunghezza delle sillabe che precedono le pause); si è inoltre universalmente d’accordo nel
mettere in relazione l’intonazione a fenomeni che si verificano a livello della frase, riservando il
concetto di “tono” per quei fenomeni di F0 che sono rilevanti a livello di parola (Lehiste 1970).
Da un punto di vista fonologico, i fenomeni di intonazione sono generalmente descritti
prendendo in considerazione i seguenti parametri (cfr. Pierrehumbert 1980):
a) accenti (pitch accents)
b) toni di confine (boundary tones)
c) accenti di sintagma (phrase accents)
d) downstep
e) upstep
E-20
In altri casi le componenti fonologiche dell’intonazione possono comunque essere descritte
usando concetti diversi. È questo il caso, ad esempio, della Scuola Inglese, che fa uso dei termini
“testa”, “corpo” e “coda” (cfr. Palmer 1922, Crystal 1969).
2) Accento
Nel caso dell’accento esiste un accordo più ampio a proposito della sua natura e dei suoi correlati
fonetici: viene generalmente associato alla presenza di un grado speciale di prominenza su
determinate sillabe all’interno del discorso. Nella letteratura specifica sono stati definiti diversi tipi
di accento, alcuni dei quali sono peculiari di alcune lingue:
a) lessicale (primario)
b) secondario
c) stød (accenti I e II in svedese e in altre lingue scandinave)
d) enfatico (focus, contrasto)
3) Ritmo
Il ritmo può essere definito come l’effetto percettivo prodotto dalla ripetizione periodica di
alcuni fenomeni fonetici nel corso del discorso. La natura del ritmo può variare a seconda del
linguaggio: può essere basata sull’isocronia delle sillabe (isocronia sillabica) o sul ricorrere di
sillabe accentate ad intervalli regolari (isocronia accentuale). È inoltre relazionato ad altri fenomeni
(accento) ed unità (sillabe) prosodiche, e produce variazioni in molti parametri fonetici (durata dei
suoni o delle sillabe, F0, intensità).
4) Tempo, velocità di eloquio
Il tempo e la velocità di eloquio dipendono dalla velocità alla quale il parlante produce gli
enunciati. La velocità di eloquio è spesso misurata come il numero di suoni emessi al secondo. Essa
provoca principalmente cambiamenti nella lunghezza dei suoni, nonostante siano state anche
riportate differenze nella forma dei movimenti tonali dovute a variazioni nella velocità di eloquio.
1.2.2 I correlati fonetici della prosodia
Le unità e i fenomeni prosodici vengono fisicamente realizzati nella catena fonica modificando
un insieme di parametri fonetici. Questi segnali fonetici (F0, variazioni di lunghezza, pause,
volume) verranno qui chiamati “correlati fonetici della prosodia”.
1.2.2.1 Eventi di F0
Le variazioni di F0 sono tipicamente relazionate a fenomeni di intonazione, ma anche l’accento e
il ritmo – insieme a molti altri fattori non linguistici – hanno un ruolo importante nella definizione
del contorno di F0 finale di un enunciato.
Le variazioni (o “eventi”) di F0 sembrano verificarsi a livelli di descrizione diversi. Al primo
livello (qui chiamato “locale”), alcune variazioni sembrano riguardare sillabe o gruppi di sillabe.
Altri fenomeni di F0 sembrano invece coinvolgere unità più ampie, come ad esempio sintagmi
intonativi o addirittura frasi o paragrafi. Eventi di questo tipo verranno qui chiamati “globali”.
E-21
1) Eventi di F0 locali
Da un punto di vista fonetico, gli eventi di F0 locali possono essere descritti sia come una serie
di livelli di F0, che come un gruppo di contorni (movimenti) F0. Questa distinzione rispecchia due
diversi approcci nella descrizione dello stesso fenomeno, ossia l’evoluzione della frequenza F0 nel
corso degli enunciati.
2) Eventi di F0 globali
Molte variazioni di F0 sembrano essere collegate a fenomeni più globali, che hanno un raggio
d’azione più ampio di quello della sillaba o del gruppo accentuale. Si tratta di concetti che vengono
principalmente impiegati nella descrizione fonetica dell’intonazione:
a) discendente/ascendente globale (global falling (declination) /rising)
b) reset di F0
c) intervallo di valori di tono (pitch range)
Questi concetti devono comunque essere integrati all’interno delle teorie fonologiche
dell’intonazione, che si sono principalmente concentrate sulla descrizione di fenomeni “locali”.
1.2.2.2 Lunghezza
La lunghezza di un suono è il risultato dell’interazione di diversi fattori linguistici (accento,
intonazione, ritmo, velocità di eloquio) e non linguistici (posizione all’interno dell’enunciato,
contesto fonetico). Ogni suono di una data lingua sembra avere anche un certo tipo di “durata
intrinseca”, che all’interno di un discorso è influenzata dai fattori sopra menzionati. La lunghezza di
un suono è quindi solo parzialmente relazionata alla prosodia, poiché dipende anche da fattori
segmentali (la natura di ogni suono, il contesto nel quale si verifica).
1.2.2.3 Intensità – volume
Come per la lunghezza, l’intensità di un suono dipende da diversi fattori; l’accento e
l’intonazione sembrano comunque essere quelli che più influenzano l’intensità finale di un suono.
Ogni suono di una data lingua sembra avere anche una sua “intensità intrinseca”, che può essere
stimata “sottraendo” l’influenza dei fattori sopra riportati dall’estensione di un suono.
1.2.2.4 Pause
L’inserimento delle pause all’interno di un discorso è uno dei modi per etichettare/marcare la
struttura prosodica (prosodic phrasing): è quindi strettamente collegato ai fenomeni di intonazione.
Anche la velocità di eloquio può determinare la posizione delle pause. Esistono inoltre molti altri
fattori non linguistici che possono determinare l’inserimento di una pausa; si tratta di fattori
fisiologici, come la necessità di respirare, o psicolinguistici, come le esitazioni.
1.2.2.5 Qualità della voce
La qualità della voce è una componente fonetica che è generalmente collegata alle caratteristiche
idiosincratiche del tratto vocale di un parlante. Alcune variazioni nella qualità della voce possono
E-22
comunque avere una funzione linguistica, o possono essere determinate da fenomeni linguistici. È
questo il caso, ad esempio, dei cambiamenti nello spettro di un suono causati dall’accento.
1.2.3 La trascrizione prosodica
Dalla descrizione dei concetti prosodici risulta chiaramente che la prosodia è un fenomeno
complesso, che può essere affrontato su diversi livelli e che può essere studiato per molteplici scopi.
Da un punto di vista linguistico, può essere un oggetto di analisi a sé stante, che viene studiato al
fine di scoprirne gli schemi e le funzioni, o può essere analizzato come un correlato della struttura
del discorso. Nell’ambito della ricerca delle tecnologie legate al linguaggio, la prosodia è stata
studiata principalmente al fine di produrre una voce sintetica che risultasse il più possibile naturale,
cercando di associare i fenomeni prosodici più adeguati al testo di input e di realizzarli con
un’appropriata manipolazione dei parametri acustici. Anche il riconoscimento vocale è interessato
ai correlati acustici della prosodia nella loro qualità di segnali della struttura del testo.
Ogni studio sperimentale fin’ora effettuato ha adottato un certo tipo di rappresentazione
prosodica adatta ai suoi scopi. A causa delle diverse prospettive della ricerca prosodica, è difficile
concepire un unico schema di annotazione per la prosodia. Recentemente si è però sentita la
necessità di avere uno schema di annotazione standard, in modo da permettere lo scambio di dati e
di vasti corpora di parlato.
Nonostante molti sistemi formali di rappresentazione della prosodia siano stati impiegati per
descrivere i fenomeni prosodici di lingue diverse, al momento non sembra esistere uno schema
unico e completo in grado di rappresentare tutti i fenomeni prosodici elencati in precedenza.
Tra i vari tentativi messi in atto al fine di proporre uno schema di annotazione standard, quello
che ha avuto più successo in termini di diffusione è stato ToBI. La discussione a proposito dei
vantaggi e degli svantaggi dei diversi schemi dovrebbe comunque tenere conto non solo della
complessità dell’oggetto in analisi – i diversi aspetti della prosodia -, ma anche dei diversi possibili
obiettivi della ricerca prosodica.
Se lo scopo principale è l’analisi del discorso, potrebbe essere sufficiente uno schema con una
serie di segni diacritici in grado di etichettare i confini prosodici o gli accenti. Per uno studio delle
relazioni tra la prosodia e la struttura discorsiva in una lingua per la quale è già disponibile un
accurato modello prosodico, sarebbe più aeguato adottare etichette simboliche in grado di
rappresentare in modo conciso le caratteristiche prosodiche della lingua in questione. Se si vuole
invece raccogliere dati sperimentali per studiare i pattern prosodici e costruire un modello
prosodico, è necessario disporre di una trascrizione fonetica più dettagliata. Per gli studi linguistici
una trascrizione di questo genere potrebbe essere basata sull’analisi uditiva, mentre per
l’implementazione di tecnologie vocali dovrebbe venirle assegnato un preciso significato acustico.
Un’ultima considerazione a proposito dei fenomeni annotati nei diversi schemi di annotazione
attualmente esistenti: mentre viene comunemente ammesso che la prosodia è un insieme di
fenomeni complesso, all’interno del quale si intrecciano l’intonazione, il ritmo e l’intensità, la
discussione sull’annotazione prosodica si concentra generalmente sull’intonazione, per lo meno
quando si arriva alla descrizione fonetica. Nonostante alcune rappresentazioni fonologiche facciano
esplicitamente riferimento a velocità di eloquio, allungamento o ad altre categorie ritmiche più
sofisticate, e la maggior parte degli schemi di annotazione etichettino i confini di sintagma e gli
accenti, nelle trascrizioni prosodiche a livello fonetico il punto più importante – forse perché
rappresenta anche l’aspetto più problematico – resta l’intonazione. Generalmente, per i corpora di
parlato annotati esiste anche una segmentazione fonetica, quindi la durata viene implicitamente
E-23
etichettata e l’intensità può essere calcolata partendo dal segnale. Le peculiarità di uno schema di
annotazione spesso riguardano la sua rappresentazione della frequenza fondamentale, per cui una
caratteristica rilevante di un sistema di annotazione è data dalla teoria dell’intonazione ad esso
sottostante o dalla sua metodologia di riferimento per l’analisi dell’intonazione.
Approcci pienamente acustici come quello classico di Fujisaki (Fujisaki 1971), nei quali il
profilo intonativo è visto come una sovrapposizione di curve definite in modo matematico, non si
sono poi trasformati in sistemi di annotazione, nonostante forniscano la descrizione di dati. Gli
approcci linguistici come quello della tradizionale Scuola Inglese (cfr. Crystal 1969 e O’Connor
1973), basati sull’analisi uditiva e su forti ipotesi teoriche, sono invece stati largamente impiegati
nella ricerca fonologica e recentemente sono anche stati adottati per l’annotazione di corpora.
Secondo questa prospettiva, l’intonazione (inglese) è suddivisa in unità tonali, all’interno delle quali
il fenomeno intonativo principale, il tono nucleare, che si verifica sull’ultima sillaba accentata, è
descritto secondo la sua altezza e forma, ad esempio come high fall o low fall-rise. Un altro gruppo
di approcci fonologici (cfr. Pierrehumbert 1980), il cui primo oggetto di analisi è nuovamente
l’inglese, descrive l’intonazione in termini di livelli, anziché in termini di forme: ciò che sembra
rilevante è il livello tonale raggiunto in punti diversi dal contorno di tono, che è descritto in termini
del contrasto tra high e low (H, L) e con l’associazione ad accenti (*) e confini (%). L’uso di questa
annotazione è diffuso (più di quanto non lo siano i principi ad essa sottostanti), per lo meno
nell’ambito della comunicazione scientifica, e questa teoria ha ispirato lo standard proposto da
ToBI. La ricerca nell’ambito della fonetica sperimentale e le tecnologie vocali in generale sono più
inclini a seguire metodologie bottom-up orientate ai dati. Per questi approcci, il modello di
intonazione per una data lingua dovrebbe mantenere un preciso – ed implementabile – contenuto
fonetico/acustico. Il punto d’inizio è la curva f0, che viene prima stilizzata e poi foneticamente
descritta per mezzo di generalizzazioni dai dati acustici/percettivi. La curva può essere vista come
una sequenza di movimenti di pitch o contorni – come ad esempio in IPO – o come una serie di
punti target o livelli di pitch interpolati collegati da una curva continua – come nell’approccio
INTSINT.
Nell’ambito del progetto finanziato dalla Comunità Europea MATE (Multilevel Annotation,
Tools Engineering) è stata effettuata un’analisi e una descrizione dettagliata dei seguenti schemi:
1. PROSPA
2. IPA
3. TEI
4. ToBI
5. SAMPA
6. SAMPROSA
7. INTSINT
8. SAMSINT
9. IPO
10. TSM
11. TILT
E-24
12. VERBMOBIL
13. KIM
14. PROZODIAG (Lund)
15. Göteborg
Per una trattazione approfondita dei suddetti schemi si rimanda dunque alla sezione dedicata alla
prosodia del deliverable del progetto MATE (Klein et al. 1999).
In questo documento ci limiteremo a presentare in dettaglio solamente gli schemi TEI e ToBI. La
scelta di concentrarsi su questi due schemi risponde all’esigenza di analizzare con maggiore
attenzione da un lato uno schema che considera la trascrizione del parlato come un testo arricchito
da un insieme di convenzioni che si riferiscono a quei fenomeni che non possono essere
adeguatamente descritti per mezzo della trascrizione ortografica standard (TEI) e dall’altro di
esporre uno schema che soddisfa in modo esauriente l’obiettivo di trascrivere fenomeni di
intonazione e confini prosodici (ToBI). Il secondo capitolo e` quindi dedicato all’analisi dettagliata
di questi due schemi, mentre nel terzo si descriveranno le motivazioni che hanno condotto alla
realizzazione del meta-schema per l’annotazione prosodica MATE che si intende adottare come
standard di riferimento per l’annotazione di fenomeni prosodici in SI-TAL.
1.3
Presentazione e analisi degli schemi di annotazione
1.3.1 TEI
Nel Capitolo 11 delle Text Encoding Initiative Guidelines (Sperberg 1994) viene trattata la
trascrizione del linguaggio parlato. Poiché lo scopo principale del progetto di standardiddazione
proposto dal gruppo del TEI riguarda l’analisi di testi scritti, le linee guida presentate nel suddetto
capitolo considerano la trascrizione del parlato come un testo arricchito da un insieme di
convenzioni che si riferiscono a quei fenomeni che non possono essere adeguatamente descritti per
mezzo della trascrizione ortografica standard. Le TEI Guidelines che riguardano la codifica dei testi
di parlato sono il risultato del lavoro effettuato da un sottoinsieme del gruppo di lavoro del TEI,
composto da Stig Johansson, Jane Edwards e Andrew Rosta (Johansson 1995a e 1995b).
Ulteriori informazioni sulla Text Encoding Initiative sono disponibili ai seguenti siti:
http://etext.virginia.edu/TEI.html
http://www-tei.uic.edu/orgs/tei
http://info.ox.ac.uk/archive/teilite
1.3.1.1 Documentazione
Il manuale di base da seguire per applicare le convenzione TEI alla trascrizione della prosodia è
il capitolo 11 delle Text Encoding Initiative Guidelines (Sperberg 1994).
Ulteriori informazioni a proposito delle Text Encoding Initiative Guidelines sono disponibili al
sito http://www.uic.edu/orgs/tei. La documentazione relativa al TEI è anche disponibile al
seguente sito ftp: ftp-tei.uic.edu (sotto la directoy “pub/tei”).
E-25
1.3.1.2 Applicazioni
Nella pagina Web di TEI sono indicati 63 progetti che fanno uso delle TEI Guidelines per
l’annotazione di testi (vedi http://www-tei.uic.edu/orgs/tei/app/ index.html), tra cui:
-
Danish Spoken Language Dialogue Systems Project
(http://www.cog.ruc.dk/projects/Dialogue/user-95)
-
Chiba Corpus of Map Task Dialogues in Japanese (http://cogsci.L.chibau.ac.jp/MapTask)
-
Edinburgh Map Task Corpus (http://www.cogsci.ed.ac.uk/elsnet/Resources/MapTask/mt_corpus.html)
1.3.1.3 Valutazione
Non sono disponibili informazioni a questo proposito.
1.3.1.4 Scopo per il quale è stato sviluppato lo schema di annotazione e approccio
adottato
Lo scopo di questo schema è dotare le convenzioni della TEI (che riguardano la codifica di testi
scritti) di etichette adatte ad annotare quei fenomeni prosodici che non possono essere descritti
adeguatamente utilizzando lo spelling tradizionale.
1.3.1.5 Lista dei fenomeni annotati
Confini prosodici:
Le convenzioni TEI permettono di indicare i confini delle unità tonali o dei sintagmi intonativi
inserendo gli elementi <seg> (all’inizio dell’unità) e </seg> (alla fine dell’unità).
Fenomeni prosodici:
1) Accento: le sillabe accentate vengono indicate inserendo usando l’etichetta &stress dopo la
sillaba accentata.
2) Ritmo: per indicare i diversi tipi di ritmo vengono impiegate le seguenti etichette:
Rh
beatable rhythm
Arrh
arrhythmic
Spr
spiky rising
Spf
spiky falling
Glr
glissando rising
Glf
glissando falling
E-26
Elementi fonetici della prosodia:
1) Durata: TEI dispone di un simbolo per indicare l’allungamento di una sillaba:
:
lengthned syllable
2) Pause: la presenza di una pausa viene indicata inserendo l’etichetta <pause>.
3) Tempo (velocità di eloquio): vengono impiegate le seguenti etichette:
A
Allegro (fast)
Aa
Very fast
Acc
Accelerando (getting faster)
L
Lento (slow)
Ll
Very slow
Rall
Rallentando (getting slower)
4) Volume: TEI fornisce le seguenti etichette:
F
Forte (loud)
Ff
very loud
Cresc
Crescendo (getting louder)
P
Piano (soft)
Pp
very soft
Dimin
Diminuendo (getting softer)
5) Eventi di F0
5.1 Contorni F0
Per trascrivere i pattern intonativi secondo le convenzioni di TEI è possibile impiegare i seguenti
simboli:
.
low fall intonation
E-27
,
fall rise intonation
?
low rise intonation
!
rise fall intonation
5.2 Eventi di F0 globali
Secondo quanto indicato nelle convenzioni di TEI, le variazioni di pitch range possono essere
trascritte impiegando il seguente insieme di etichette:
High
high pitch range
Low
low pitch range
Wide
wide pitch range
Narrow
narrow pitch range
L’intonazione globale ascendente o discendente può essere trascritta con le seguenti etichette:
Asc
Ascending
Desc
Descending
Monot
Monotonous
Scand
Scandent (ogni sillaba che
segue è più alta di quella
precedente, che generalmente
termina in tono discendente)
6) Qualità della voce: per fornire indicazioni a proposito della qualità della voce, TEI propone
il seguente insieme di etichette:
Whisp
Whisper
Breath
Breathy
Husk
Husky
Creak
Creaky
Fals
Falsetto
Reson
Resonant
E-28
Giggle
Unvoiced laugh or giggle
Laugh
Voiced laugh
Trem
Tremulous
Sob
Sobbing
Yawn
Yawning
Sigh
Sighing
1.3.1.6 Critiche
“Payne (Payne 1992: 51 ss.) mentions the lack of development of guidelines for encoding
prosody in the TEI scheme and discusses some inconsistencies of the statements about prosody in
the TEI Guidelines. The favoured solution would be to incorporate basic prosodic information in
the orthographic transcription and to use a fundamental frequency tracing aligned with the text in
cases where a detailed prosodic analysis is needed. Tone units: Although an easy conversion can be
made between French’s boundary markers and TEI tags delimiting tone units, Payne (Payne 1992)
notes the difficulties of transcribing melodic contours with TEI conventions. Tonic syllables: TEI
Guidelines do not provide an indication of tonic syllables as straightforwardly as in French’s
system. As Payne (Payne 1992: 55) points out, if the tonic syllable is going to be marked, it should
be marked in the orthographic transcription, and the TEI Guidelines should be extended to provide a
way of doing this in a straightforward manner. Tones: Paynes (Paynes 1992: 56) suggests the
extension of the TEI Guidelines to allow distinguishing tones as in French’s conventions; such an
extension could be bases in different specifications for the tag <syllable>. Prominent non-tonic
syllables: Prominent non-tonic syllables are marked in French’s system, but no provision for such
feature is found in the TEI Guidelines. Speech management: TEI has no specific guidelines for the
transcription of disfluency phenomena, recommending transcription using IPA or other systems of
phonemic transcription. On the other hand, French’s conventions, adopted by NERC, are much
more specific and deal with different phenomena not covered by TEI, such as guessed or
unintelligible fragments” (Llisterri 1996).
1.3.1.7 Esempi
1.3.1.8 Linguaggio di codifica
Le convenzioni di TEI sono state definite adottando SGML come linguaggio di codifica. Questo
è uno dei vantaggi che presenta questo schema di annotazione.
1.3.1.9 Esistenza di uno strumento software per l’annotazione
E-29
1.3.2 ToBI
ToBI (Tones and Break Indices) è stato proposto nel 1992 da un gruppo di ricercatori con
esperienza in una notevole varietà di approcci all’analisi prosodica e alle tecnologie vocali. Il loro
scopo era cercare di definire uno schema di annotazione – analogo all’IPA per la segmentazione
fonetica – in grado di diventare uno standard per la trascrizione prosodica delle varietà di inglese
americano (cfr. Silverman et al. 1992).
Una descrizione del sistema ToBI è disponibile al sito http://julius.ling.ohiostate.edu:80/Phonetics/ToBI/
Esistono due manuali di codifica forniti dagli sviluppatori stessi dello schema di annotazione
(Beckman & Ayers 1994; Beckman & Hirschberg 1994). Sono entrambi disponibili:
•
via ftp al sito: kiwi.nmt.edu
•
via URL al sito: http://ling.ohio-state.edu/Phonetics/ToBI/ToBI0.html
1.3.2.2 Applicazioni
Nonostante lo schema ToBI sia stato originariamente sviluppato per essere applicato all’inglese,
è stato anche impiegato per trascrivere fenomeni di intonazione di dialetti inglesi (Mayo et al. 1997)
e di altre lingue, come ad esempio l’italiano (Grice et al. 1995b) o il tedesco (Grice et al. 1995a).
ToBI (opportunamente ampliato e modificato) è inoltre stato integrato in altri sistemi di
trascrizione, come ad esempio VERBMOBIL (Reyelt et al. 1994) o lo Stuttgart System (Mayer
1995). (Per informazioni più dettagliate a proposito dello Stuttgart System è possibile consultare il
sito http://www.ims.uni-stuttgart.de/phonetik/joerg/lamban/STGTsystem.html).
1.3.2.3 Valutazione
Una valutazione dello schema di annotazione ToBI è descritta in Pitrelli et al. (1994), mentre in
Grice et al. (1996) è disponibile la valutazione della versione tedesca di ToBI.
1.3.2.4 Scopo per il quale è stato sviluppato lo schema di annotazione e approccio
adottato
ToBI è un adattamento del modello fonologico dell’intonazione inglese di Pierrehumbert
(Pierrehumbert 1980).
“In the domain of prosodic transcription systems to be used in speech research and in speech
technology, ToBI (Tone and Break Index Tier) was developed to fulfill the need of a prosodic
notation system providing a common core to which different researchers can add additional detail
within the format of the system; it focuses on the structure of American English, but transcribes
word grouping and prominence, two aspects which are considered to be rather universal (Price
1992).
E-30
As described by Silverman et al. (Silverman et al. 1992) the sysem shows the following features:
(1) it captures categories of prosodic phenomena; (2) it allows transcribers to represent some
uncertainties in the transcription; (3) it can be adapted to different transcription requirements by
using subsets or supersets of the notation system; (4) it has demonstrated high inter-transcriber
agreement; (5) it defines ASCII formats for machine-readable representations of the transcription;
and (6) it is equipped with software to support transcription using Waves and UNIX programmes.
A ToBI transcription for an utterance consists of symbolic labels for events on four parallel tiers:
(1) orthographic tier, (2) break-index tier, (3) tone tier and (4) miscellaneous tier. Each tier consists
of symbols representing prosodic events, associated to the time in which they occur in the utterance.
The conventions for annotating according to TOBI are defined for text-based transcriptions and for
computer-based labeling systems such as Waves.” (Llisterri 1996)
ToBI è basato su un modello fonologico dell’intonazione inglese, ma sono stati fatti molti sforzi
per estenderlo anche ad altre lingue (e ad altri dialetti inglesi). Nei confronti di ToBI sono anche
state mosse parecchie critiche (cfr. Nolan et al. 1997).
1.3.2.5 Lista dei fenomeni annotati
Il sistema ToBI è stato progettato per trascrivere fenomeni di intonazione e confini prosodici.
Non esistono simboli per la trascrizione dei correlati fonetici della prosodia. I confini e i toni sono
rappresentati su livelli separati, allineati col testo per mezzo di coordinate temporali.
Confini prosodici
In ToBI i confini prosodici vengono annotati per mezzo dei Break Indices:
0
Clitic group boundary
1
Word boundary
2
Boundary with no tonal mark
3
Intermediate Phrase boundary
4
Intonative Phrase boundary
Fenomeni prosodici
ToBI comprende una serie di simboli per la trascrizione dei fenomeni di intonazione: pitch
accents, phrase accents e boundary tones. Detti simboli vengono associati rispettivamente alla
sillaba o al sintagma accentati. Essi possono essere allineati temporalmente con peaks e valley di f0.
1.1 Pitch accents
H*
Peak accent (high pitch accent)
L*
Low accent (low pitch accent)
E-31
L*+H
Scooped accent
L+H*
Rising peak accent
H+!H*
Downstepped accent
1.2 Boundary tones
L%
Final low boundary tone
H%
Final high boundary tone
%H
Initial high boundary tone
1.3 Phrase accents
L-
Low phrase accent
H-
High phrase accent
In ToBI è anche previsto un simbolo per la trascrizione del downstep:
!
Downstep
1.3.2.6 Esempi
Usando il software per la trascrizione e xwaves, durante il processo di trascrizione viene creata
una serie di file che contengono le informazioni relative ai diversi livelli. Qui di seguito riportiamo
una serie di esempi che contengono la trascrizione dell’enunciato “Show me the cheapest fare from
Philadelphia to Dallas excluding restriction” (tratto dal materiale di TOBI-TRAINING):
Livello ortografico:
signal cheapest2
type 1
color 123
font -*-times-medium-r-*-*-17-*-*-*-*-*-*-*
separator ;
nfields 1
#
2.105000 123 show
2.245000 123 me
2.355000 123 the
2.935000 123 cheapest
3.315000 123 fare
3.565000 123 from
3.836919 123 Da(llas)-
E-32
4.325000
5.015000
5.225000
5.855000
7.399125
8.585000
8.825000
9.115000
9.595000
9.880000
123
123
123
123
123
123
123
123
123
123
from
Phladelphia
to
Dallas
excluding
restriction
V
U
slash
one
Livello di break index:
signal cheapest2
type 0
color 123
comment created using xlabel Fri Sep 3 17:24:47 1993
font -*-times-medium-r*-*-17-*-*-*-*-*-*-*
separator ;
nfields 1
#
2.105000 123 1
2.245000 123 1
2.355000 123 1
2.935000 123 1
3.315000 123 4
3.565000 123 1
3.836919 123 1p
4.325000 123 1
5.015000 123 3
5.225000 123 1
5.855000 123 4
7.399125 123 4
8.585000 123 4
8.825000 123 1
9.115000 123 3
9.595000 123 1
9.880000 123 4
Livello di tono:
signal cheapest2
type 0
color 115
comment created using xlabel Fri Sep 3 17:24:48 1993
font -*-times-medium-r-*-*-17-*-*-*-*-*-*-*
separator ;
nfields 1
#
2.052696 115 H*
2.579923 115 L+H*
3.065052 115 !H*
3.315635 115 L-L%
4.149572 115 %r
4.470318 115 L+H*
4.771018 115 !H*
5.015584 115 L5.388451 115 H*
5.855538 115 L-L%
E-33
6.984159
7.399114
8.154402
8.585841
8.711954
8.928780
9.114631
9.535582
9.694309
9.880160
115
115
115
115
115
115
115
115
115
115
L+H*
L-L%
H*
L-L%
H*
!H*
LH*
H*
L-L%
L’immagine seguente mostra un esempio di visualizzazione x-waves di una trascrizione ToBI,
allineata con la forma d’onda e la curva f0.
1.3.2.7 Linguaggio di codifica
Etichette simboliche su livelli separati per ogni tipo di informazione (ortografia, confini, toni,
informazioni miste), allineate temporalmente con il segnale.
1.3.2.8 Strumento software per l’annotazione
Sono stati sviluppati due strumenti software per l’annotazione usando l’ambiente xwaves: un
trascrittore e un verificatore. Il trascrittore è uno script di UNIX che semplifica la trascrizione, ma
non è comunque in grado di produrre la trascrizione automaticamente. Il verificatore è uno script di
E-34
UNIX che controlla la coerenza delle sequenze di simboli trascritti. Entrambi sono disponibili via
ftp al sito kiwi.nmt.edu.
1.4
Il meta-schema per l’annotazione prosodica del progetto MATE
Sviluppato da Juan-Maria Garrido e Silvia Quazza, il meta-schema per l’annotazione prosodica
del progetto MATE si propone di realizzare un ambiente in cui sia possibile annotare del materiale
linguistico rendendo conto di tutti gli aspetti rilevanti per lo studio della prosodia.
In particolare, il “meta-schema” di MATE per la prosodia è una struttura di annotazione a
quattro-livelli, in cui è possibile render conto delle diverse esigenze dell’annotazione prosodica. I
livelli sono i seguenti:
1
Trascrizione fonetica: in questo livello vengono rappresentati i segmenti fonetici fenomeni
correlati agli aspetti segmentali della prosodia (le pause e le unità inferiori alla parola, per
esempio le sillabe).
2
Rappresentazione fonetica dell’intonazione: in questo livello si annotano i fenomeni
intonativi e vengono descritte in dettaglio le curve fondamentali di frequenza e i possibili
correlati acustici dell’intonazione (per esempio l’energia).
3
Rappresentazione fonologica dell’intonazione: in questo livello si rende conto dei correlati
fonologici della prosodia in termini di rappresentazioni funzionali, annotando la funzione degli
eventi intonativi rilevanti rispetto alle unita` prosodiche.
4
Segmentazione prosodica: in questo livello gli enunciati vengono segmentati in termini di
unità prosodiche di alto livello (per esempio, in termini di gruppi intonativi).
I quattro livelli si pongono in relazioni diverse rispetto al segnale vocale: i due livelli fonetici (1
e 2), destinati alla segmentazione in fonemi e alla descrizione di f0, sono direttamente allinenati con
il segnale vocale e in questo senso si possono considerare livelli di base. I due livelli fonologici (3 e
4) descrivono gli eventi linguisticamente rilevanti dell’intonazione, mantenendo una relazione sia
con i livelli di base che con altre unità linguistiche. Si possono così stabilire diversi legami tra i
livelli di descrizione: per esempio, è possibile associare un evento intonativo come l’accento sia alla
parola (livello ortografico) che alla sillaba o vocale in cui l’accento si realizza (livello di
trascrizione fonetica), che alla configurazione corrispondente di ‘pitch movement’ (livello di
descrizione fonetica di f0).
Attualmente il meta-schema realizzato in MATE è l’unico strumento disponibile per affrontare
in modo esaustivo il compito dell’annotazione prosodica ed è questo che ci spinge a raccomandarne
l’uso in TAL. In particolare, le specifiche per l’annotazione prosodica ed il manuale si riferiranno a
questo meta-schema.
E-35
2 Livello morfosintattico e sintattico
E-36
2.1
Introduzione
Lo scopo generale di questa rassegna è quello di fornire informazione di riferimento per le
specifiche di annotazione morfosintattica e sintattica che saranno adottate all’interno del progetto
SI-TAL. Lo scopo principale di questo capitolo consiste nel presentare una panoramica delle
pratiche di annotazione correnti per quanto riguarda l’analisi morfosintattica e sintattica del parlato,
in particolare del parlato dialogico, che rappresenta il dominio di applicazione delle specifiche di
annotazione che verranno presentate in seguito.
In sintesi, dunque, gli scopi di questa sezione possono essere identificati in:
•
identificare e descrivere i fenomeni linguistici specifici della lingua parlata ed in particolare del
dialogo, che richiedono strumenti speciali per l’annotazione;
•
rivedere, paragonare e analizzare i metodi, le soluzioni e le pratiche proposte per rappresentare
ed annotare questi fenomeni;
Questi aspetti servono come lavoro preliminare per
•
proporre delle specifiche per annotare a livello morfosintattico e sintattico i fenomeni che sono
stati individuati;
•
integrare queste raccomandazioni in modo coerente con le specifiche di annotazione
morfosintattica già in uso per lo scritto.
Entrambi gli aspetti verranno affrontati nella parte di questo manuale relativa alle specifiche di
annotazione (parte II, sez. II, cap. 3).
2.2
Annotazione morfosintattica e sintattica
Per annotazione morfosintattica, detta anche “etichettatura grammaticale” o “part of speech
tagging”, si intende l’annotazione della classe grammaticale di ogni elemento-parola in un testo,
ovvero l’associazione di un’etichetta relativa alla parte del discorso con ogni elemento-parola di un
corpus. L’insieme delle etichette usato per etichettare le parole in una lingua particolare ed in un
corpus particolare costituisce il TAGSET per quella lingua o per quel corpus. La lista delle etichette,
insieme alle loro definizioni e alla linee-guida necessarie per la loro applicazione al corpus,
costituisce lo SCHEMA DI ANNOTAZIONE.
Per annotazione sintattica si intende la pratica di aggiungere informazione sulla struttura
sintattica delle frasi di un corpus, per esempio in termini di analisi a costituenti o in termini di
analisi a dipendenze, incorporando nel testo degli indicatori di struttura sintattica come parentesi
etichettate o simboli che indicano le relazioni di dipendenza fra le parole. L’annotazione sintattica
di corpora si è generalmente concretizzata nello sviluppo delle cosiddette treebanks (cfr. Leech &
Garside, 1991; Marcus et al., 1993). Le treebanks sono generalmente costruite sulla base di un
modello di struttura sintagmatica (vedi Garside et al. 1997: 34-52), ma anche i modelli di
dipendenza sono stati applicati, in particolare da Karlsson (Karlsson et al., 1995).
A causa della loro relativa semplicità e del loro evidente potenziale di applicazione ad aree
dell’elaborazione del linguaggio naturale, l’annotazione morfosintattica e sintattica sono considerate
come i tipi di annotazione fra i più importanti al momento attuale di sviluppo dei corpora testuali,
oltre ad essere certamente i più sviluppati e meglio consolidati.
E-37
In questo rapporto i due tipi di annotazione, morfosintattica e sintattica, sono considerati
separatamente solo per motivi di comodità di esposizione; l’annotazione morfosintattica è il primo
tipo di informazione ad essere aggiunta ad un corpus, ed è presupposta dall’annotazione sintattica.
In questa sezione concentreremo la nostra attenzione soprattutto sulle pratiche di annotazione
morfosintattica e sintattica relative a corpora di dialoghi parlati, con particolare riferimento ai
dialoghi raccolti per scopi applicativi del tipo definito “task-driven”, ovvero caratterizzati
dall’essere prodotti, in forma spontanea o elicitata, per svolgere un compito determinato (ad
esempio, richiesta di informazioni, soluzione collaborativa di problemi, effettuazione di
prenotazioni, ecc.). Il motivo di questa scelta è duplice: in primo luogo, questo tipo di dialoghi
corrisponde a quello che costituirà il corpus in SI-TAL. L’obiettivo del tema “Dialoghi Annotati” è
infatti quello di raccogliere un corpus di dialoghi per uso in applicazioni di interfacce vocali, con un
fuoco quindi ben diverso rispetto ad usi del corpus per scopi generici di ricerca in linguistica,
dialettologia, sociolinguistica, analisi del discorso o della conversazione 1 . In secondo luogo, questo
restringimento dell’obiettivo permette di concentrare l’attenzione su quegli schemi di annotazione
sviluppati per scopi simili; è infatti evidente che gli scopi per cui un corpus deve essere usato
condizionano anche le scelte a livello di rappresentazione e di annotazione.
Nel confrontare schemi e pratiche correnti di annotazione morfosintattica e sintattica, è
opportuno essere consapevoli della variabilità degli schemi, che non solo possono adottare
terminologie e meccanismi di rappresentazione diversi, ma ovviamente possono differire in modo
vistoso a seconda delle teorie di riferimento che vengono rappresentate. Per quanto riguarda
l’annotazione morfosintattica, i principali parametri di variazione riguardano i criteri di
identificazione degli elementi-parola, che costituiscono una questione non banale nel caso di
espressioni poli-lessicali, composti e parole contenenti pronomi e avverbi clitici. Schemi di
annotazione lessico-grammaticale diversi assumono diverse segmentazioni del testo in unità
lessicali o parole. Per esempio, talvolta i nomi composti o i sintagmi idiomatici ricevono una
etichetta unica; di contro, talvolta gli affissi sono separati e ricevono una etichetta distinta. Un’altra
fonte di differenze fra gli schemi è rappresentata dal tipo di categorie grammaticali previste; in
alcuni casi la differenza è puramente terminologica, mentre in altri a variare è il contenuto
informativo espresso dalle etichette: schemi diversi prevedono un diverso numero di categorie
morfosintattiche, che riflettono livelli diversi di granularità dell’analisi. Quand’anche gli insiemi di
etichette siano sovrapponibili, schemi diversi possono sottintendere differenti criteri di attribuzione
alle varie categorie morfosintattiche.
Anche a questo primo stadio di annotazione morfosintattica vi è dunque una notevole diversità di
schemi o modelli di annotazione. A titolo esemplificativo, riportiamo l’analisi di una frase secondo
alcuni schemi, allineati verticalmente 2 .
good morning, more news about the Reverend Sun Myung Moon, founder of the
Unification church, who’s currently in jail for tax evasion
1
Ultimamente sono stati raccolti dei corpora di dialoghi per gli scopi più diversi. Per esempio, vedi il database di
Childes (MacWhinney, 1995), che definisce degli standards per lo scambio dei dati tra ricercatori nell’area del
linguaggio infantile.
2
L’esempio è tratto dalla pagina web di Amalgam: http://www.scs.leeds.ac.uk/ccalas/amalgam/
E-38
BRO
WN
good
morning
,
more
news
about
the
Reverend
Sun
Myung
Moon
,
founder
of
the
Unificati
on
church
,
who’s
‘s
currently
in
jail
for
tax
evasion
ICE
JJ
NN
.
AP
NN
IN
AT
NP
NP
NP
NP
,
NN
IN
AT
NP
FRM
FRM
PUNC(per)
PRON(quant,comp)
N(com,sing)
PREP(ge)
ART(def)
N(prop,sing)
N(prop,sing)
N(prop,sing)
N(prop,sing)
PUNCT(com)
N(com,sing)
PREP(ge)
ART(def)
N(prop,sing)
LONDO
NLUND
DG
DG
.
AF
NC
PA
NP
NP
NP
NP
NP
,
NC
PA
NP
NP
NN
,
WPS+
+BEZ
RB
IN
NN
IN
NN
NN
N(com,sing)
PUNCT(com)
PRON(rel)
V(cop,pres,encl)
ADV(ge)
PREP(ge)
N(com,sing)
PREP(ge)
N(com,sing)
N(com,sing)
NP
,
GA
VB+3
AW
PA
NC
PA
NC
NC
POW
F
UPENN BNC C5 BNC C6 3
.
DQ
H
P
DD
HN
HN
HN
HN
,
H
VO
DD
HN
JJ
NN
.
JJR
NN
IN
DT
NNP
NNP
NNP
NNP
,
NN
IN
DT
NNP
AJ0
NN1
PUN
DT0
NN1
PRP
AT0
NP0
NP0
NP0
NP0
PUN
NN1
PRF
AT0
NN1
JJ
NNT1
YSTP
DAR
NN1
II
AT
NNB
NP1
NP1
NP1
YCOM
NN1
IO
AT
NN1
H
,
HWH
OM
AX
P
H
P
H
H
NNP
,
WP
VBZ
RB
IN
NN
IN
NN
NN
NN1
PUN
PNQ
VBZ
AV0
PRP
NN1
PRP
NN1
NN1
NN1
YCOM
PNQS
VBZ
RR
II
NN1
IF
NN1
NN1
Una situazione analoga è riscontrabile per quanto riguarda l’annotazione sintattica. In questo
caso, il principale parametro di variazione può essere identificato nell’adozione di uno schema
basato su un approccio a struttura sintagmatica dell’analisi sintattica (schemi a costituenti) versus
uno schema basato su un approccio a dipendenze (schemi a dipendenze).
Per un’analisi ed un confronto dettagliati degli schemi di annotazione sintattica applicati a
corpora di lingua scritta si rimanda alla trattazione svolta nell’ambito del tema “Treebank” in SITAL.
Le differenze e le comunalità tra i diversi schemi di annotazione morfosintattica e sintattica sono
state ampiamente evidenziate ed approfondite nel quadro di precedenti sforzi di confronto. Citiamo
qui, ad esempio, il lavoro svolto nell’ambito del progetto NERC (Network of European Reference
Corpora), al quale rimandiamo per una trattazione approfondita delle problematiche qui soltanto
3
Brown = Brown Corpus (Francis & Kucera, 1979); ICE = International Corpus of English (Greenbaum, 1996;
Greenbaum & Ni, 1996), London-Lund = London-Lund Corpus (Svartvik, 1990); POW = Polytechnic of Wales Corpus
(Souter, 1989); Upenn = Penn Treebank Corpus (Marcus et al. 1993); BNC = British National Corpus (Eyes, 1996).
E-39
brevemente accennate. In particolare, si rimanda al lavoro di Calzolari, Baker & Kruyt (1995),
Monachini & Östling (1992a, 1992b), e di Montemagni (1992). Più di recente, segnaliamo il lavoro
svolto nell’ambito del progetto MATE, dove si è analogamente provveduto ad una fase di revisione
degli schemi di annotazione esistenti per il livello morfosintattico e sintattico, con particolare
riferimento all’applicazione degli schemi alla lingua parlata (vedi Klein et al., 1998).
In considerazione dell’esistenza di questa imponente mole di lavoro, cui si sommano gli sforzi di
standardizzazione svolti nell’ambito del progetto EAGLES (vedi Leech & Wilson, 1996; Leech,
Barnett & Kahrel, 1996), non riteniamo opportuno in questa sede effettuare nuovamente un
confronto dettagliato dei diversi schemi di annotazione, soprattutto se si considera che quei lavori
sono stati svolti esclusivamente sulla base di schemi di annotazione sviluppati per l’annotazione di
corpora di lingua scritta. Concentreremo quindi la nostra attenzione sugli schemi morfosintattici e
sintattici sviluppati per corpora di lingua parlata, con particolare attenzione ai fenomeni peculiari
del parlato che non trovano riscontro nella lingua scritta.
2.3
Annotazione morfosintattica e sintattica della lingua parlata
Nonostante il livello morfosintattico e sintattico rappresentino nella maggioranza dei casi il tipo
di annotazione linguistica più comune e diffusa, l’esperienza di annotazione di lingua parlata a
questi due livelli è ancora piuttosto limitata. E’ importante notare inoltre che molti corpora di lingua
parlata annotati morfosintatticamente e/o sintatticamente adottano un approccio “normalizzante”
all’annotazione, che consiste sostanzialmente nell’eliminazione di tutti quei fenomeni tipici del
parlato e che ha come risultato la restituzione di un testo che in molti casi rappresenta una parafrasi
“scritta” del testo originario. Questo approccio, che ha il vantaggio pratico di permettere di usare gli
schemi già esistenti per lo scritto, e spesso già ampiamente testati, e di permettere l’annotazione
automatica con gli strumenti già a disposizione, ha numerosi svantaggi teorici (vedi sez. II, par. 3 di
questo capitolo per una discussione approfondita). Questo per dire che l’esperienza di annotazione
realmente condotta su testi parlati è estremamente limitata ed inferiore rispetto all’impressione che
si può derivare semplicemente guardando al numero di corpora annotati morfosintatticamente in
circolazione.
Molti sono i fenomeni che differenziano la lingua parlata da quella scritta e che coinvolgono i
livelli di annotazione morfosintattico e sintattico. Alcuni di essi saranno presentati ed esemplificati
in questo paragrafo, insieme ad una descrizione delle problematiche che comportano per
l’annotazione morfosintattica e/o sintattica. Alcuni di questi fenomeni, come la vasta categoria di
quelle che Leech chiama “disfluenze”, altrimenti designate fenomeni di “speech management” (vedi
sotto, par. 2.3.1.1) sono fenomeni esclusivi della lingua parlata ed estranei alla lingua scritta. Altri,
come gli usi non standard, gli avverbi, i marcatori del discorso e le particelle pragmatiche, e le
cosiddette espressioni polilessicali, rappresentano fenomeni che pur non essendo esclusivi della
lingua parlata acquistano una rilevanza particolare per la frequenza con cui occorrono. Altri ancora,
come le sequenze di ripetizione e correzione, gli anacoluti sintattici e i fenomeni di dislocazione
illustrano la difficoltà di applicazione al parlato delle categorie sintattiche pensate per lo scritto.
2.3.1 Annotazione morfosintattica della lingua parlata
In questo paragrafo la nostra attenzione è incentrata sulle decisioni linguistiche coinvolte
nell’annotazione morfosintattica della lingua parlata, e in particolare del parlato dialogico.
Si potrebbe sostenere che il parlato spontaneo non costituisca un’area problematica, dal
momento che le stesse categorie morfosintattiche sono verosimilmente applicabili tanto allo scritto
E-40
che al parlato. Che questo sia almeno parzialmente vero è testimoniato dal fatto che il British
National Corpus (vedi Eyes 1996) è stato annotato utilizzando per il sottoinsieme parlato del corpus
(ca. 10 milioni di parole) lo stesso tagset utilizzato per l’annotazione del sottoinsieme di lingua
scritta (ca. 90 milioni di parole).
Ciò nondimeno, la maggioranza degli schemi di annotazione è stata sviluppata esplicitamente per
la lingua scritta, ed il fatto che uno stesso tagset possa essere applicato tanto a dati scritti che a dati
parlati non dovrebbe fare ignorare il fatto che la frequenza e l’importanza delle categorie
grammaticali variano considerevolmente tra le due varietà di dati. Per fare un esempio, le
interiezioni e i segnali di esitazione sono di gran lunga più frequenti nel parlato. Ci sono almeno due
aspetti dell’annotazione morfosintattica che devono essere considerati nell’annotazione
morfosintattica del parlato, e che verosimilmente determinano una dimensione di variabilità fra i
diversi schemi:
(a) i cosiddetti fenomeni di “disfluenza” (Gibbon, 1999):
•
vocalizzazioni pseudo-lessicali
•
frammenti di parole
•
forme non standard
(b) classi grammaticali caratteristiche del parlato e non dello scritto
•
marcatori del discorso e particelle pragmatiche
•
interiezioni ed avverbi periferici
2.3.1.1 Annotazione dei fenomeni di disfluenza
Tre sono i problemi principali da considerare. Il primo è il modo in cui etichettare le cosiddette
vocalizzazioni pseudo-lessicali, come um, eeh, ecc. Il secondo concerne il modo in cui etichettare i
frammenti di parola che risultano da correzioni o enunciazioni incomplete. Infine, un terzo aspetto
concerne l’annotazione di forme non standard, dovute o ad errori di esecuzione o a regole
grammaticali diverse rispetto alla variante standard della lingua.
2.3.1.1.1
Vocalizzazioni pseudo-lessicali
Le vocalizzazioni pseudo-lessicali sono suoni come um, uh-huh, ooh, ah, mhm, eh?, eccetera,
prodotti dai parlanti con scopi pragmatici vari. Una prima distinzione approssimativa, che si basa
tanto su considerazioni distribuzionali che di contenuto semantico-pragmatico, può essere fatta tra
riempitivi di pause o esitazioni e vocalizzazioni di incoraggiamento.
I riempitivi di pause o esitazioni, dette anche pause piene, sono quei suoni prodotti come modo
convenzionale per mantenere un turno di parola mentre si stanno formulando le parole seguenti. Si
tratta di un fenomeno molto frequente nel parlato spontaneo, che ha funzioni pragmatiche e
interazionali precise. Dal punto di vista dell’annotazione morfosintattica si pone il problema se
trattare o meno questi elementi come elementi lessicali, assegnando loro una categoria
morfosintattica. Provvisoriamente, suddividiamo questi fenomeni in due classi: suoni basati su una
consonante nasale, come mhmh, mmm, um, … e suoni puramente vocalici, come eeeh, ahhh, ecc.
E-41
(1)
F024: ma non lo posso fare perché l'ho fatto da+ ehm nell'altra direzione
quindi va verso la destra del foglio <pb> il cerchio è rivolto verso la
destra del foglio
Le vocalizzazioni di incoraggiamento si distinguono dalle pause piene per occorrere in posizione
iniziale o finale di turno e per avere la funzione di assecondare un turno precedente o sollecitare un
turno successivo da parte di un altro parlante. Ad esempio:
(2)
G001: Sara allora c'hai sulla tua sinistra <pb> una figura che s+ viene
definita colibrì
F002: mh
Non tutti gli schemi di annotazione prevedono una categoria a parte per questa classe di
fenomeni. In MATE, ad esempio, (cfr. Klein et al. 1999) è prevista una categoria morfosintattica
detta “Filler” che comprende tutti i tipi di vocalizzazioni pseudo-lessicali. Il tagset di CHRISTINE
(vedi Sampson 1999) prevede invece due sottocategorie della classe Y: la categoria YM per i
riempitivi di pause, ulteriormente distinti a seconda che il suono sia a componente nasale (mm, um:
YMN) o vocalica (er, ah, eh: YMV). E la categoria YV per i suoni vocali non linguistici.
Lo schema di annotazione dell’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum 1996;
Greenbaum & Ni 1996) riconduce questi fenomeni sotto la più ampia categoria delle interiezioni
(vedi par. 2.3.1.2). Nel LONDON-LUND CORPUS (Svartvik 1990), in modo analogo, questa categoria
di fenomeni viene inglobata nella categoria “Discourse” (vedi par. 2.3.1.2).
Le raccomandazioni preliminari di EAGLES sull’annotazione morfosintattica del parlato
raccomandano l’uso di sottocategorie per l’etichettatura di questo tipo di fenomeni. A partire da
categorie già esistenti e magari periferiche, come è ad esempio il caso della classe U (“unique” o
“unassigned”) nel cosiddetto tagset intermedio proposto nelle guidelines preliminari di EAGLES
(Leech & Wilson, 1994). Questa classe potrebbe essere estesa mediante classificazioni ulteriori, ad
esempio Ux “esitatore” e Uy “vocalizzazione di incoraggiamento” (dove x e y sono numeri).
Un’altra classe grammaticale che le linee guida di EAGLES identificano come una possibile sede di
estensione per includere il trattamento di questi fenomeni è la classe delle interiezioni (“I”, cfr.
sotto).
Una soluzione alternativa, peraltro adottata in molti schemi, consiste nel non assegnare alcuna
etichetta morfosintattica a questi elementi, ma nel marcarli nella trascrizione ortografica come
vocalizzazioni non lessicali paragonabili alle risate e ai grugniti. Questa soluzione è in linea con la
proposta, ulteriormente descritta sotto, di trattare i fenomeni di disfluenza come sostanzialmente
estranei all’annotazione grammaticale del parlato.
2.3.1.1.2
Frammenti di parole
I frammenti di parole possono verificarsi come effetto di correzioni, interruzioni ed in genere da
enunciazioni incomplete (per esempio, quando un parlante viene interrotto a metà parola, e questa
resta “sospesa”):
ma # non lo posso fare perche' l'ho fatto da+ <ehm> nell'altra direzione
E-42
L’approccio adottato in MATE consiste nel segnalare esplicitamente i frammenti di parola
facendo uso di un attributo opzionale ad hoc, l’attributo “broken”, che si aggiunge agli attributi di
classe morfosintattica. In CHRISTINE, la forme interrotte sono annotate con etichette ad hoc formate
dall’etichetta che verrebbe assegnata alla parola completa, seguita dopo il simbolo / dal lemma della
forma completa corrispondente. Ad esempio, thi per this è etichettato DD1i/this.
La pratica più comune consiste tuttavia nell’escludere le forme frammentarie dall’annotazione
morfosintattica limitandosi a rappresentarle in trascrizione, con la ragionevole argomentazione che
non si tratta di forme lessicali. In alcuni casi, la pratica consiste nel normalizzare le forme
frammentarie in trascrizione, fornendo la forma completa; in tal caso l’annotazione morfosintattica
deve trattare una forma non diversa dalle altre. Le linee-guida preliminari di EAGLES suggeriscono
di etichettare queste forme facendo uso della categoria U, usata per le forme di difficile
attribuzione, magari estesa con qualche simbolo che ne indichi la sottocategoria.
2.3.1.1.3
Usi non standard
Come suggerisce Sampson (1999), è utile distinguere tra quei casi in cui l’uso di una forma
lessicale da parte di un parlante è regolare dal punto di vista della sua variante regionale o sociale,
anche se deviante rispetto alla varietà standard della lingua, ed i casi in cui un parlante produce una
forma che è mal formata anche dal suo punto di vista, come nel caso degli errori di esecuzione.
Quest’ultima categoria comprende le parole pronunciate in modo scorretto, i lapsus o “slips of the
tongue”, come nei due esempi seguenti:
(1)
hai satto un hai fatto un percorso tra partenza e arrivo ?
(2)
A: io dalla discoteca sono arrivata a automobili , poi ?
B: no automobili non le devi pensare <pb> devi arrivare diritto fino ad
arrivo <pb>
Il caso delle forme devianti rispetto alla norma standard, ma grammaticali rispetto ad una
qualsiasi variante geo- o socio-dialettale è più complesso e delicato, dal momento che qualsiasi
intervento di normalizzazione implica anche un giudizio di accettabilità vs. non accettabilità delle
forme devianti.
(3)
prosegui fin' e sopra fai un quattro cinque trattini
(4)
vabbè <pb> allora f~ <pb> arriva fino addo' sta 'sto viale della verità
Non è infrequente che degli usi non standard in questo secondo senso siano interpretati come
errori di esecuzione. Nell’enunciazione seguente, ad esempio, le due forme evidenziate in grassetto
potrebbero essere interpretate tanto come forme dialettali che come forme troncate di “passare” ed
“andare”:
ci devi passa' vicino non ci de+ non devi <RUMORE> anda' # sulle figure
E-43
Molto dipende dalla frequenza dei fenomeni (se un fenomeno è molto frequente in un dialogo è
probabile che si tratti di un uso non standard vero e proprio più che di un errore di esecuzione
sistematico), e dalla preparazione e sensibilità linguistica dei trascrittori.
Le pratiche di annotazione degli usi non standard sono piuttosto varie. Di nuovo, la strategia più
comune consiste nel normalizzare il testo in sede di trascrizione, cosicché tutte le forme devianti
rispetto alla variante standard, vuoi perché frutto di un errore di esecuzione, vuoi perché conformi a
regole non standard, vengono ricondotte alla loro controparte standard.
Questa pratica ha il vantaggio di assicurare che ogni forma lessicale della trascrizione
corrisponda ad un’entrata lessicale nel lessico di riferimento, sia esso un dizionario standard preesistente o un lessico generato specificamente per un dato corpus (vedi Gibbon 1999: 20). Tuttavia,
questo approccio ha delle evidenti limitazioni nell’alterazione della rappresentatività dei dati e
nell’intervento di correzione, che in molti casi ambigui può condurre ad una versione del testo che
rappresenta una parafrasi del testo originario.
Sul versante opposto dell’approccio non-normalizzante, la pratica adottata ad esempio in
CHRISTINE consiste nel tracciare una distinzione fra errori di esecuzione e usi dialettali. Nel primo
caso, la pratica di annotazione consiste nell’evidenziare la forma come deviante. Nel caso invece
delle forme dialettali, che sarebbe scientificamente scorretto annotare nello stesso modo delle forme
standard corrispondenti, la pratica consiste nell’annotare la forma etichettandola secondo il suo
omofono nella variante standard, ma annotare poi il costituente sintattico che la contiene in base alla
funzione grammaticale che la forma ha in quel contesto. Secondo questa pratica, la “e” dell’esempio
(3) più sopra sarebbe annotata come congiunzione a livello morfosintattico, mentre a livello
sintattico il costituente “e sopra” sarebbe annotato come “sintagma preposizionale”.
Questa soluzione, oltre ad avere pesanti controindicazioni per l’annotazione automatica, non è
praticabile nei casi in cui non esista alcuna forma omofona nella variante standard della lingua,
come nel caso dell’esempio (4) più sopra.
2.3.1.2 Classi grammaticali caratteristiche del parlato e non dello scritto
I tagsets sviluppati per la lingua scritta possono dover essere estesi per affrontare alcuni
fenomeni tipici del parlato come marcatori discorsivi (ingl. well, right; it. ora, allora, ecc.),
particelle pragmatiche, e vari tipi di avverbi, in particolare gli avverbi modali e di connessione), che
sono fortemente associati con la lingua parlata. La maggior parte di queste forme potrebbe essere
definita “avverbiale” in un senso molto generico, in quanto sono periferiche rispetto alla clausola o
alla frase, ne sono separabili, e possono occorrere in posizioni diverse, in particolare in posizione
iniziale o finale, in relazione a qualsiasi struttura grammaticale più ampia di cui sono parte. Queste
forme tendono ad avere un ruolo importante nella segnalazione delle funzioni discorsive e quindi
nel fornire dei criteri per la classificazione pragmatica degli enunciati (vedi anche cap. 4 in questa
sezione).
2.3.1.2.1
Marcatori del discorso e particelle pragmatiche
La lingua parlata è molto ricca di elementi lessicali la cui categorizzazione grammaticale taglia
trasversalmente le categorie delle interiezioni, degli avverbi e delle congiunzioni e che assolvono
una ricca gamma di funzioni pragmatiche. Queste vanno dalla segnalazione del particolare tipo di
relazione, semantica, pragmatica o retorica, in cui una enunciazione sta con un’enunciazione
precedente (allora, ma, comunque, perché ecc. all’inizio di turno o enunciazione), all’indicazione di
valori epistemici e di atteggiamento (in realtà, voglio dire, …), dall’espressione di atteggiamenti
E-44
semi-convenzionali (ringraziamenti: grazie; forme di cortesia: per favore, prego, ..; saluti:
arrivederci, ciao, buongiorno, …), all’espressione di funzioni di coordinamento dell’interazione
dialogica, ad esempio per cedere il turno o richiederlo.
Di fronte a questa varietà di funzioni sta una relativa uniformità di caratteristiche distribuzionali:
si tratta infatti di forme periferiche rispetto alla clausola o alla frase, che possono occorrere
isolatamente in un turno, grammaticalmente autonome oppure debolmente connesse a livello
prosodico ad una struttura sintattica più ampia, in genere all’inizio o meno comunemente alla fine.
La pratica corrente negli schemi di annotazione morfosintattica consiste nel ridistribuire queste
forme fra le due categorie delle interiezioni e/o degli avverbi (vedi paragrafo successivo).
In alternativa, è stata spesso avanzata in letteratura l’esigenza di creare una classe grammaticale
autonoma, eventualmente sottoclassificata in categorie più specifiche. A questa categoria è stato
spesso dato il nome di marcatori del discorso o connettivi.
L’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum & Ni 1996) ad esempio, possiede una
categoria ad hoc denominata “connettivo”, ulteriormente classificata in “general connectives” e
“appositive connectives”. I connettivi di tipo “generale” sono identificati in quelle forme usate per
stabilire una relazione fra la clausola o frase corrente ed una o più clausole o frasi precedenti. Ad
esempio:
Finally, the candidates were criticised for ‘woolly answers’
CONNEC(ge)
Also I note that the floor plan is grossly inaccurate
CONNEC(ge)
There are, however, a couple of obstacles to be overcome first CONNEC(ge)
I connettivi di tipo appositivo sono invece rappresentati da forme che occorrono tra elementi in
apposizione:
Things like basketball and football are great exercise
Other factors, such as lack of amenities, are also important
The government resists all pressure groups
particularly trade unions
CONNEC(appos)
CONNEC(appos)
CONNEC(appos)
In modo simile, il tagset del Corpus LONDON-LUND (Svartvik & Eeg-Olofsson 1982) prevede
una ricca sottocategorizzazione all’interno della classe D (“discourse”), come mostrato nella tabella
successiva:
ETICHETTA
DG
CATEGORIA
discourse
SOTTOCATEGORIA
greeting
DI
discourse
initiator
DL
DN
DO
discourse
discourse
discourse
attention
no
order
DP
DQ
DR
discourse
discourse
discourse
politeness
question
response
E-45
ESEMPIO
good_afternoon,
goodbye, hello, hi
actually,
anyhow,
anyway, now, oh
hey, look
no
come on, give over, shut
up
please
right, eh, really
I_see, I’m_sure, ok, ah
aha, fine, good, oh, ooh,
uhuh
DS
DT
DW
DX
DY
discourse
discourse
discourse
discourse
discourse
softener
thanks
well
exemplifier
yes
I_mean, you_know, see
thank_you, thanks
well
say
mhm, yea, yep, yes, yup
Tabella 2.1: La sottoclassificazione della classe morfosintattica “Discourse” in LONDON-LUND
Questo approccio, sebbene interessante, ha però il difetto di ridurre notevolmente la possibilità di
confronto fra annotazione morfosintattica dello scritto e del parlato, perché forme che compaiono
anche nello scritto, sia pure con frequenza minore, verrebbero riclassificate in una nuova classe non
prevista dal tagset morfosintattico per la lingua scritta.
2.3.1.2.2
Interiezioni ed Avverbi
La categoria delle interiezioni nella lingua parlata può essere vista come molto più ampia e
variegata di quanto normalmente concesso nella grammatica tradizionale. Questo non dovrebbe
essere preoccupante dal momento che l’etimologia della parola suggerisce che si tratta di qualcosa
“gettato” dentro, in un senso che si applica in modo più o meno felice a gran parte degli elementi
descritti sopra. Si tratta di elementi grammaticali autonomi, capaci di occorrere da soli in un turno,
oppure debolmente connessi da un punto di vista prosodico ad una struttura sintattica più ampia, in
genere all’inizio o, meno comunemente, alla fine di un turno.
La classe delle interiezioni è generalmente molto poco sviluppata nei tagsets di annotazione
morfosintattica per la lingua scritta, come mostra anche la documentazione di EAGLES in cui non
vengono raccomandate sottoclassificazioni. Tuttavia, l’analisi dei corpora di lingua parlata rivela
un’alta frequenza di un numero si sottocategorie piuttosto chiare che sono anche relativamente
distinte nella loro distribuzione sintattica e discorsiva. L’approccio normalmente adottato negli
schemi di annotazione morfosintattica della lingua parlata è dunque quello di distinguere tra
etichette diverse, intese come categorie più specifiche della categoria grammaticale prevista per le
interiezioni. Questo approccio è stato ad esempio adottato da Sampson (1995) nella sua discussione
dell’annotazione grammaticale della lingua inglese parlata. Nel corpus CHRISTINE (vedi Sampson,
1999), che rappresenta la realizzazione di quelle discussioni programmatiche, la categoria delle
interiezioni è riccamente sottoclassificata, e comprende dalle interiezioni tradizionali (hey, ok, ecc.),
a espressioni tradizionalmente classificate come avverbiali o verbali (excuse me, don’t worry,
anyway). La tabella seguente riporta la classificazione usata in CHRISTINE:
UA
UB
UE
UG
UI
UL
UK
UN
UP
UR
UT
UW
UX
Apology
Smooth-over
Engager
Greeting
Initiator
Response Elicitor
Attention Signal
Negative
please
Response
Thanks
well
Expletive
E-46
pardon, sorry, excuse_me
don’t_worry, never_mind
I_mean, mind_you, you_know
hi, hello, good_morning
anyway, however, now
eh, what
hey, look
no
as discourse marker
fine, good, uhuh, OK, all_right
thanks, thank_you
as discourse marker
damn, gosh, hell, good_heavens
UY
Positive
yes, yeah, yup, mhm
Tabella 2.2: La sottoclassificazione della classe morfosintattica delle interiezioni in CHRISTINE
Un approccio opposto è rappresentato ad esempio dal tagset dell’INTERNATIONAL CORPUS OF
ENGLISH (Greenbaum & Ni 1996), dove la categoria delle interiezioni non è ulteriormente
specificata, pur comprendendo esclamazioni e riempitivi di pause ed esitazioni.
Un caso analogo è rappresentato dalla categoria degli avverbi. La categoria grammaticale degli
avverbi rappresenta spesso una categoria “per tutti gli usi”, dove catalogare forme la cui
attribuzione ad una classe grammaticale è spesso problematica. Di nuovo, i tagsets morfosintattici
sviluppati per la lingua scritta non offrono una ricca classificazione degli avverbi. Le linee-guida di
EAGLES, ad esempio, racchiudono semplicemente delle sottocategorie raccomandate per la forma
base, comparativa e superlativa degli avverbi, e per gli avverbi interrogativi come quando, dove e
come. L’occorrenza di forme avverbiali nella lingua parlata sembra tuttavia molto maggiore rispetto
alla lingua scritta, per cui si presenta spesso la necessità di fornire una sottocategorizzazione più
dettagliata degli avverbi rispetto a quella normalmente fornita nei tagset specificati per la lingua
scritta. Ad esempio, i due schemi di annotazione per l’inglese che sono stati sviluppati per la lingua
parlata, il corpus LONDON-LUND (Svartvik & Eeg-Olofsson 1982) e l’INTERNATIONAL CORPUS OF
ENGLISH (Greenbaum & Ni, 1996) forniscono una classificazione dettagliata della categoria degli
avverbi. La tabella seguente dà un’illustrazione delle possibili sottocategorizzazioni della categoria
degli avverbi.
ETICHETTA
CATEGORIA
SOTTOCATEGORIA
ESEMPIO
AB
AB*VB+3
adverb
adverb
how, when, where, wherever, why
how’s, when’s, where’s
AB*VM+8
adverb
AC
adverb
wh-word
wh-word + verb “to
be”, present tense, 3rd
person singular
wh-word + verb modal,
ability
closed class
AC*VB+3
adverb
AC+R
adverb
AC+T
AE
AF
AG
AH
AI
AM
AN
AP
adverb
adverb
adverb
adverb
adverb
adverb
adverb
adverb
adverbial
particle
closed
class,
comparative
closed class, superlative
postpositional
more
most
conjunct so
very
much
not
better, closer, earlier, easier,
further, later, less, longer, …
best
ago, enough
less, more or
most
so
very
much
not
about across along around
away back behind down forward
where’ll
about abroad after afterwards
again ahead all almost alone
along also altogether always
another any anyhow anymore
anyway around away back
backwards before beforehand
besides ...
closed class + verb "to here's
be", present tense, 3rd
person singular
E-47
in off on over past round through
to together up
a bit, a lot
AQ
adverb
phrasal intensifier
AR
AS
AT
AW
adverb
adverb
adverb
adverb
no
as
too
open class
AX
AX*VB+3
adverb
adverb
AX*VB+4
adverb
existential there + verb there’re
"to be", present tense,
2nd person singular or
all persons plural
AX*VM+8
adverb
existential there + verb, there’ll
modal, ability
AX*VM+9
adverb
existential there + verb, there’d
modal, suggestion
AZ
no
as
too
absolutely,
actually,
administratively,
apparently,
artificially,
badly,
basically,
beautifully,
bitterly,
briefly,
casually,
certainly,
cleverly,
closely, completely, conceivably,
correctly, ...
existential there
there
existential there + verb there’s
"to be", present tense,
3rd person singular
intensifier
so that
Tabella 2.3: Alcune sottocategorie avverbiali del LONDON-LUND CORPUS
Questa lista incompleta non intende ovviamente essere esaustiva, ma serve per illustrare la
diversità e l’importanza dei componenti avverbiali nel parlato, e la necessità di considerare
attentamente la possibilità e/o necessità di aggiungere sottocategorie aggiuntive al tagset prima di
intraprendere l’annotazione morfosintattica dei dati parlati.
La tabella seguente illustra invece la classificazione della categoria avverbiale in uso nel tagset
dell’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum & Ni 1996):
ETICHETTA
CATEGORIA
SOTTOCATEGORIA
add
excl
ge
adverb
adverb
adverb
additive
exclusive
general
ge, comp
ge, sup
inten
partic
adverb
adverb
adverb
adverb
general
general
intensifier
particularizer
SOTTO-SOTTOCAT.
ELEMENTO
comparative
superlative
E-48
O
ESEMPIO
both, neither, too
only, merely, just
often,
recently,
arguably, slowly,
there, …
faster
fastest
very, too, fairly
mainly, at least, in
phras
adverb
phrasal
rel
adverb
relative
wh
adverb
wh-
particular
give up, look up,
go on
when,
where,
whereby, why
how,
when?,
where
Tabella 2.4: Le sottocategorie avverbiali dell’ INTERNATIONAL CORPUS OF ENGLISH
Il gruppo sul parlato di EAGLES tuttavia avverte contro la difficoltà di effettuare queste
sottocategorizzazioni, argomentando che gli avverbi costituiscono una classe grammaticale
scarsamente organizzata in cui anche sotto-categorie ben note come tempo, luogo, grado e modo
sono notoriamente difficile da distinguere in base a criteri univoci, e sicuramente ancor più difficile
da riconoscere ed etichettare automaticamente.
Il fenomeno delle interiezioni e degli avverbi illustra due ulteriori difficoltà che devono essere
tenute presenti nell’annotazione dei dati parlati. Il primo problema è illustrato dalle diverse
classificazioni che i due schemi citati attribuiscono alle stesse forme, che evidenzia il limite
estremamente vago fra queste due categorie grammaticali periferiche. Si nota, infatti, come i due
schemi siano inconsistenti tra loro relativamente alla classificazione di certe forme. Ad esempio, le
stesse forme di saluto, di risposta e di cortesia sono classificate come interiezioni in CHRISTINE, e
come avverbi nello schema LONDON-LUND. Il secondo problema è rappresentato dall’uso di queste
categorie nell’annotazione: molte parole in queste classi occorrono in più di una categoria, tanto che
la disambiguazione può essere estremamente problematica anche per un’annotazione manuale. Per
esempio oh, classificato come un’esclamazione, in molti casi si comporta come un ‘discourse
marker’, mentre okay, classificato come una forma di risposta, può anche occorrere in funzione di
elicitatore di risposta e di ‘discourse marker’.
Una è il confine estremamente incerto tra queste due categorie grammaticali periferiche. Si nota,
ad esempio, che i due tagsets illustrati, quello di Sampson per il corpus CHRISTINE, e quello di EegOlofsson per il corpus LONDON-LUND, sono in qualche misura inconsistenti per quanto riguarda il
punto in cui collocano il limite fra le due categorie: mentre Sampson colloca i saluti come goodbye,
le forme di risposta come yes e le forme di cortesia come please tra le interiezioni, Svartvik e EegOlofsson li collocano tra gli avverbi.
Un ulteriore problema di ordine teorico è che questo tipo di approccio a nostro parere ha il difetto di
confondere l’annotazione morfosintattica con l’annotazione della funzione pragmatica, che
dovrebbero invece essere mantenute distinte. Inoltre, a livello di annotazione inter-livello può essere
interessante vedere quali diverse categorie grammaticali svolgano la stessa funzione pragmatica.
Una proposta preliminare, avanzata dal gruppo di lavoro sul parlato di EAGLES, consiste
nell’estendere l’uso della categoria interiezioni con le sottocategorie presentate nella tabella 2.4.
ETICHETTA
CATEGORIA
ESEMPI
I1
esclamazioni
oh, ah, ooh
I2
saluti
hi, hello, bye
I3
marcatori del discorso
well, now, you know
I4
attention signals
hey, look, yo
E-49
I5
elicitatori di risposta
huh? eh?
I6
forme di risposta
yeah, no, okay, uh-huh
I7
esitatori, pause piene
er, um
I8
formule di cortesia
thanks, sorry, please
I9
espletivi
God, hell, shit
Tabella 2.5: Le sottocategorie proposte da EAGLES per la classe delle interiezioni
Queste sottocategorie coprono i principali fenomeni di interiezione che occorrono nella lingua
inglese. E’ necessario comunque sottolineare il fatto che l’uso di queste sottocategorie non è senza
problemi: molte delle parole che ricadono in queste classi occorrono in più di una sottocategoria,
così che l’ambiguità può essere insostenibile per l’annotazione automatica o addirittura per quella
manuale. Per esempio, oh, che è classificata come un’esclamazione, in molti casi si comporta come
un marcatore del discorso; okay, classificato come una forma di risposta, può anche occorrere come
un elicitatore di risposta e come un marcatore del discorso.
Una soluzione alternativa, anch’essa proposta in Gibbon (1999), consiste nel sostenere che i
diversi tipi di interiezioni e/o avverbi identificati in realtà differiscono sul piano funzionale, e che
quindi queste distinzioni non sono di pertinenza dell’annotazione morfosintattica ma bensì del
livello pragmatico. Al livello morfosintattico può essere sufficiente una classificazione lasca tra
congiunzioni, particelle modali e marcatori discorsivi, eventualmente con l’inserimento di categorie
polilessicali per alcune espressioni idiomatiche.
2.3.2 Annotazione sintattica della lingua parlata
L’annotazione sintattica ha finora preso la forma dello sviluppo di treebanks (vedi Leech &
Garside, 1991; Marcos-Marìn et al. 1993), ovvero corpora in cui ad ogni frase è associata una
struttura (talora parziale) ad albero. Le treebanks sono in genere costruite sulla base di un modello
di struttura a costituenti (Garside et al. 1997), ma sono stati applicati anche modelli a dipendenze,
specialmente da Karlsson e colleghi (Karlsson et al. 1995). L’annotazione sintattica della lingua
parlata costituisce tuttavia una esperienza molto recente. Un documento prodotto da EAGLES (Leech
et al. 1996) propone alcune linee-guida provvisorie per l’annotazione sintattica, omettendo tuttavia
di affrontare i particolari problemi presentati dall’annotazione sintattica del parlato, pur
riconoscendoli. In modo analogo a quanto successo per l’annotazione morfosintattica, il crescente
numero di corpora di parlato ha messo in evidenza la necessità e le difficoltà di adattare alla lingua
parlata i tagsets sviluppati per lo scritto, demolendo l’aspettativa che l’annotazione sintattica del
parlato potesse essere condotta non problematicamente con gli stessi strumenti adottati per lo
scritto. In particolare, segnaliamo cinque sforzi orientati in questo senso:
•
la treebank del BRITISH NATIONAL CORPUS, UCREL, Lancaster (vedi Eyes 1996)
•
il corpus di PENN TREEBANK (Marcus et al. 1993)
•
il corpus CHRISTINE (Sampson 1995; 1999)
•
l’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum, 1996; Nelson, 1996)
E-50
•
lo schema di annotazione per il livello sintattico sviluppato nell’ambito del progetto MATE
(Klein et al. 1998)
2.3.2.1 Annotazione sintattica dei fenomeni di disfluenza
Come per l’annotazione morfosintattica, i principali fenomeni che coinvolgono l’adattamento
dell’annotazione sintattica riguardano i fenomeni di disfluenza. I fenomeni principali, in particolare,
sono:
•
uso di segnali di esitazione o pause piene
•
incompletezze sintattiche
•
sequenze di correzione
•
ripetizioni
•
anacoluti sintattici
•
interiezioni e marcatori del discorso
Altri aspetti significativi sono:
•
identificazione dell’unità sintattica massima
•
presenza di enunciati predicativi a testa non verbale
•
presenza di enunciati formati da unità sintattiche dai confini incerti
Nel considerare le soluzioni adottate a fronte di questi fenomeni, faremo riferimento soprattutto
alle soluzioni adottate in CHRISTINE, UCREL e MATE. Le altre iniziative, infatti, hanno adottato un
approccio diverso, che aggira il problema dell’annotazione sintattica dei fenomeni tipici del parlato,
ovvero hanno adottato degli schemi che annotano esplicitamente le disfluenze. Questo permette, se
necessario, di escludere i fenomeni annotati dal materiale annotato a livello sintattico, applicando
l’annotazione sintattica esclusivamente ad una versione normalizzata dei dati. Questa versione
normalizzata può essere rappresentata congiuntamente ad una registrazione del materiale disfluente,
ad esempio mediante l’uso di meccanismi di mark-up come quelli adottati in TEI (etichette di
cancellazione o regolarizzazione). D’altra parte, l’approccio di Sampson in CHRISTINE, di UCREL e
MATE consiste nell’includere il materiale disfluente nel materiale annotato sintatticamente, per
mezzo di un insieme di criteri appositi.
2.3.2.1.1
Uso di segnali di esitazione o pause piene
I segnali di esitazione o pause piene possono essere trattati in modo relativamente non
problematico equiparandoli alle pause vuote. Nell’annotazione sintattica dei corpora di lingua
scritta, in genere, i segnali di punteggiatura sono incorporati nell’albero sintattico, e sono trattati
come costituenti terminali alla stessa stregua delle parole. Questa rappresenta una strategia utile per
l’addestramento di analizzatori sintattici, poiché i segnali di punteggiatura in genere marcano i
confini sintattici di una qualche importanza. In modo analogo, per la lingua parlata, è vantaggioso
adottare la stessa strategia, e trattare i segnali di pause alla stessa stregua della punteggiatura, come
se si trattasse di “parole” nell’analisi di un’enunciazione parlata. La strategia adottata in UCREL e
CHRISTINE è quella di attaccare i segni di punteggiatura il più in alto possibile nell’albero sintattico;
essi sono cioè trattati come costituenti immediati del costituente più piccolo di cui le parole alla
E-51
sinistra e alla destra sono costituenti. Questo approccio può essere esteso facilmente ai segnali di
esitazione, interpretati come fenomeni di pausa vocalizzata.
2.3.2.1.2
Incompletezze sintattiche
Le incompletezze sintattiche si verificano in tutti quei casi in cui un parlante non completa una
enunciazione, a causa vuoi di una interruzione spontanea (eventualmente motivata dall’esigenza
metalinguistica di usare un’espressione più chiara o appropriata), vuoi di una qualsiasi altra
corruzione del processo di produzione, come nel caso dell’interruzione da parte di un altro parlante.
A livello sintattico si presenta dunque il problema dell’annotazione di frammenti di costituenti non
terminali, dove un costituente è interrotto prima del suo completamento:
<pause> [NP you NP] [VP ‘re [NP/ a British NP/]V] <pause>
Questo esempio, tratto dallo schema di annotazione del BRITISH NATIONAL CORPUS, illustra l’uso
di un simbolo speciale (/, che segue l’etichetta del costituente non terminale) per indicare che il
costituente è incompleto. Nello schema di CHRISTINE, invece, viene utilizzato un segnale per
indicare il punto dell’interruzione; il simbolo di interruzione viene considerato un costituente
immediato del nodo frasale che domina l’intera sequenza:
[S [Nea:s I ] [Vc must have ] [N:o the ] # [Vc must get ] [Ns:o the ticket ]
S ]
Si noti inoltre come secondo queste due strategie venga comunque assegnata una categoria
sintattica al costituente interrotto, posto che il tipo di sintagma sia sufficientemente chiaro, anche se
le parole di fatto enunciate non giustificherebbero di per sé l’assegnazione di una categoria.
Nell’esempio di CHRISTINE, la parola the viene etichettata come costituente nominale, sebbene
questa parola isolata non verrebbe mai considerata un costituente nominale. Il principio generale
consiste infatti nel cercare di assegnare alla sequenza analizzata la struttura che avrebbe avuto se il
costituente fosse stato completato, con lo stesso numero di nodi etichettati con le stesse categorie
principali.
E’ evidente come questo tipo di approccio implichi in molti casi un grado considerevole di
arbitrarietà, dal momento che non è mai possibile supplire l’elemento mancante con assoluta
certezza. Questo fenomeno illustra una caratteristica del parlato che è estremamente problematica
per gli approcci tradizionali basati su un’analisi sintattica a costituenti incassati.
Per un tipo di approccio che adotta invece un’analisi sintattica a costituenti immediati non
ricorsivi come quello adottato in MATE 4 , che non implica il controllo di consistenza dei livelli di
incassamento strutturale ad un livello superiore a quello dei costituenti identificati, i costituenti
parziali o interrotti non rappresentano un caso problematico. La struttura incompleta viene segnalata
come un costituente (erroneo) di categoria sconosciuta, ma nulla viene detto sulla relazione tra la
struttura appena individuata e il testo che segue. Il costituente sconosciuto si chiude di fronte alla
prima parola del testo incompatibile con l’analisi in corso, lasciando naturalmente fuori
quest’ultima. Da questo punto del testo in avanti l’analisi riprende markovianamente da zero, cioè
senza memoria del fallimento appena incontrato. L’analisi di una enunciazione con costituente
interrotto sarebbe dunque analizzata come segue:
4
Per una trattazione dettagliata dell’analisi sintattica a costituenti immediati, vedi oltre il paragrafo relativo alle
specifiche di annotazione sintattica: parte II, par. 3.3.
E-52
[ SV descrivigli] [SX un ] [ SX ce+ ] [ SN un mezzo cerchio ]
In questo caso, il fallimento dell’analisi è ben localizzato nei due costituenti non riconosciuti (ed
annotati come SX) con il vantaggio sia di non pregiudicare le analisi successive al punto in cui il
fallimento è avvenuto, sia di evitare di introdurre un grado eccessivo di arbitrarietà nell’analisi,
come implicato invece dal fornire un completamento del costituente.
2.3.2.1.3
Sequenze di correzione
Le sequenze di correzione, dette anche “false partenze” occorrono quando un parlante
“interrompe” il processo di produzione interrompendo la costruzione del costituente corrente,
ritorna ad un punto precedente della stessa enunciazione e ricomincia da capo la formulazione
dell’enunciato. Un esempio è il caso seguente, dove il segmento enunciato fino al punto di
interruzione (segnalato dal simbolo / ) è “corretto” dal segmento che segue l’interruzione:
vicino c'e' una paro+ / vicino c'e' una figura che si chiama abeti ?
In CHRISTINE, l’annotazione di questa classe di fenomeni adotta una strategia simile a quella
sviluppata per l’annotazione dei segmenti interrotti (di fatto, la sequenza di correzione è un caso
speciale di costituente interrotto). Il punto di interruzione viene segnalato mediante il simbolo #, e
le sequenze che lo precedono e lo seguono vengono entrambe incluse nel costituente
immediatamente superiore:
and that [NPs any bonus [RELCL he ] # money [RELCL he gets over that ] ] is a
bonus
Come si può notare, in un’analisi a costituenti classica si pone il problema se espungere la
sequenza soggetta a correzione o riformulazione, oppure se inglobarla nella più ampia struttura
della correzione.
Nella maggioranza dei casi, tuttavia, le sequenze di correzione sono individuate ed annotate in
fase preliminare ed eventualmente espunte dall’annotazione sintattica vera e propria, eliminando il
segmento interrotto e lasciando soltanto il segmento che corregge quello precedente. E’ questo
l’approccio adottato per esempio in PENN TREEBANK, dove è stato sviluppato un dettagliato
manuale per l’annotazione di questo ed altri tipi di disfluenze (vedi Meeter et al. 1995).
In MATE è stato invece adottato un approccio solo apparentemente simile ad un approccio
normalizzante: le false partenze e le sequenze di correzione vengono infatti annotate ad un livello di
pre-elaborazione del testo, ma in questo caso lo scopo non consiste nella successiva eliminazione
del materiale disfluente, bensì nell’annotazione di informazione strutturale che non è di stretta
pertinenza dell’annotazione sintattica ma di cui è comunque utile poter disporre. A livello sintattico
viene dunque annotata tutta la struttura, e gli eventuali costituenti interrotti sono etichettati secondo
le modalità descritte nel paragrafo precedente.
2.3.2.1.4
Ripetizioni
La ripetizione, come manifestazione di disfluenza, occorre quando il parlante mostra esitazione
ripetendo la stessa parola o la stessa sequenza di parole prima di procedere con il normale processo
di produzione. Un esempio è rappresentato dal caso seguente:
E-53
va bene va bene allora passa <pb> passa <pl> tra …
Per l’annotazione di questa classe di fenomeni, in CHRISTINE viene usata la stessa strategia
adottata per i segmenti incompleti, ovvero come un caso speciale di sequenza di correzione:
[O Oh [S [NP I ] [VP don’t think ] # [NP I ] [VP don’t think ] [NCL I ever
went to see mine ] S] O]
In generale, per questa classe di fenomeni valgono le considerazioni fatte al paragrafo
precedente.
2.3.2.1.5
Anacoluti sintattici
Nel parlato si verifica di frequente il caso in cui il parlante cambia il corso del suo pensiero, non
completando la costruzione sintattica con cui ha iniziato l’enunciazione, e sostituendola con una
costruzione alternativa. In molti casi si assiste addirittura ad una produzione che è sintatticamente
incoerente.
Il fenomeno è simile a quello delle correzioni, ma senza un “punto di interruzione”. Le parole
sono strutturate in una sequenza tale che, se una finestra di dimensioni limitate venisse spostata
lungo di essa, le parole all’interno della finestra in qualsiasi punto sembrerebbero essere coerenti in
quanto parte di una struttura grammaticale normale, ma una tale struttura non può essere imposta
alla sequenza nel suo complesso.
Un esempio, tratto dal BRITISH NATIONAL CORPUS, è il seguente:
and this is what the, the <unclear> what’s name now now <pause> that when
it’s opened in nineteen ninety-two <pause> the communist block will be able
to come through Germany this way in.
In questa enunciazione, presentata come una frase unica, vi sono tre sequenze di parole tra le
quali non esiste un costituente sovraordinato comune; in questo caso lo schema del BRITISH
NATIONAL CORPUS adotta un’analisi minimale, detta anche “principio di minimizzazione
strutturale” (il simbolo # è aggiunto per indicare i punti di interruzione):
[and this is what the #, the <unclear> ] [ what’s name now # now ] # <pause>
[ that when it’s opened in nineteen ninety-two <pause> the communist block
will be able to come through Germany this way in ] .
Il principio di minimizzazione strutturale specifica che un’annotazione non dovrebbe contenere
più informazione di quanto sia consentito derivare dal contesto. In tal modo si raggiunge anche un
certo grado di neutralità teorica, in quanto si evita che lo stesso testo venga analizzato in modi
difformi, a seconda della diversa struttura sintattica che analisti differenti possono attribuire alla
sequenza. Nell’esempio precedente non è possibile essere ragionevolmente sicuri nell’attribuzione
di un tipo o un altro di segmentazione; analogamente, può essere ritenuto arbitrario attribuire a
questi segmenti delle particolari etichette sintattiche: per questo motivo l’analisi sintattica è solo
parziale.
Di contro, l’approccio adottato da Sampson in CHRISTINE per il trattamento di questa classe di
fenomeni consiste nel cercare di attribuire comunque una struttura, anche se questo implica
E-54
assumere delle decisioni arbitrarie5 . E’ evidente infatti come questa classe di fenomeni resista
all’analisi in termini di diagrammi di costituenza ad albero (o parentesizzazione etichettata); come
sarà mostrato in dettaglio nella parte di questo capitolo dedicata alle specifiche di annotazione
(parte II, sez. II, par. 3.3), l’analisi sintattica a costituenti immediati, come quella proposta nello
schema di annotazione di MATE, permette di aggirare agevolmente il problema.
2.3.2.1.6
Segmenti inintelligibili
Un altro problema, connesso a quello dell’incompletezza sintattica, si verifica nel parlato quando
le circostanze della produzione o della registrazione lasciano dei passaggi non chiari o
inintelligibili. Il trattamento generale di questo fenomeno è parallelo a quello adottato per i
costituenti incompleti. In CHRISTINE, ad esempio, si consente l’annotazione di segmenti non udibili
o non chiari mediante la formulazione di un insieme di regole di annotazione che indicano come
derivare un albero sintattico nei casi in cui la presenza di segmenti non udibili implica la non
conoscibilità del corretto albero sintattico per quella enunciazione. Così come viene introdotto un
simbolo # per segnalare un punto di interruzione, viene introdotto un simbolo ad hoc <unclear>
per segnalare il punto in cui l’analisi sintattica non può essere eseguita per motivi di inintelligibilità.
Le modalità adottate sono le seguenti:
•
ogni entità {unclear} riceve l’etichetta YY
•
ogni entità di questo tipo è dominata immediatamente da un nodo non terminale a cui è
associata l’etichetta speciale Y. Questo nodo può anche dominare parole chiaramente udibile
prima e/o dopo la parte non chiara, in conformità con la regola seguente;
•
le parole udibili che precedono il segmento non udibile sono dominate dal nodo Y solo se
appartengono chiaramente ad un sintagma la cui categoria è sconosciuta a causa del
segmento non udibile. Ciò significa che delle parole in questa posizione di solito non saranno
incluse sotto Y, perché i sintagmi in genere hanno delle parole caratteristiche che li
introducono. Ad esempio, the {unclear} sarà un SN, e la struttura sarà [N the [Y
{unclear}] ], e non [Y the {unclear}]. Tuttavia, and {unclear} saranno raggruppati
insieme sotto un nodo Y+, perché and è associato con quanto segue ma la categoria sintattica
del sintagma dipende interamente dalla parola mancante.
•
le parole udibili che seguono il segmento non udibile e tutte le etichette di sintagma che
dominano quelle parole, sono poste sotto la Y se potessero anche essere dominate da qualche
sintagma sconosciuto che domina alcune delle parole non udibile, anche se potrebbe
benissimo non essere così. Di conseguenza, quando una “linea” di nodi da una parola chiara
su fino ad un nodo radice include in qualche punto un nodo Y, l’annotazione non equivale ad
affermare che la parola fa sicuramente parte della struttura al di sotto di quella radice.
5
Sampson, pur osservando le difficoltà imposte all’analisi sintattica a costituenti da questa classe di fenomeni
conclude: “However, we have found no way of annotating Markovian sequences other than by imposing an arbitrary
division and treating the hinge element as belonging to one of the constructions to which it is adjacent and not to the
other. (…) Constituency analysis is so solidly established as the appropriate formalism for representing naturallanguage structure in general that is seems impractical to think of abandoning it, merely in order to deal with one special
type of speech repair” (1999: 41).
E-55
2.3.2.1.7
Difficoltà di segmentazione
La sintassi della lingua parlata può sembrare frammentaria o incompleta per ragioni diverse dalla
disfluenza o dall’inintelligibilità. Uno dei motivi principali è che la frase canonica della lingua
scritta, intesa come struttura che contenga almeno un verbo finito, è ben lontana dall’essere una
base soddisfacente per la segmentazione del parlato in unità sintattiche indipendenti. Una
percentuale consistente delle unità sintattiche del parlato, ed in particolare del parlato dialogico, non
contengono un verbo finito; molte sono enunciazioni contenenti una sola parola, che spesso è
un’interiezione. Dal punto di vista di un’analisi sintattica a costituenti, il problema delle frasi a testa
non verbale, o dalla testa verbale ellittica, rappresenta una seria difficoltà per quei sistemi a regole
che presuppongono una struttura frasale canonica del tipo F → SN SV. La pratica corrente nella
compilazione delle treebanks è spesso stata quella di usare la parentesizzazione (convenzionalmente
[S … S]) per racchiudere l’intera unità analizzabile, senza fare tuttavia assunzioni relativamente a
ciò che occorre all’interno di quelle parentesi debba avere la struttura di una frase canonica. Così
una unità sintagmatica autonoma come “nessun problema” dovrebbe essere analizzata
semplicemente come [S [N nessun problema N ] S]. Le parentesi più esterne possono
essere interpretate come “frase” o “segmento sintattico”, a seconda delle preferenze dell’annotatore.
In EAGLES (Gibbon, 1999) si raccomanda l’uso del termine C-UNIT per indicare qualsiasi segmento
analizzato come [S … S] che non sia parte di un’altra struttura [S … S].
Lo schema di annotazione di CHRISTINE si conforma a questa pratica, costruendo almeno un
albero sintattico autonomo per ogni turno di parola, a prescindere dal fatto che sia o meno contenuta
una struttura canonica di frase del tipo F → SN SV . L’annotazione sintattica a costituenti non
ricorsivi adottata in MATE, che, lo ricordiamo, non implica la costruzione di strutture di livello
superiore a quello dei costituenti non ricorsivi, si limita invece a prendere atto del fatto che in
un’espressione come “da domani dieta” esiste un costituente avverbiale “da domani”
immediatamente seguito da un costituente nominale “dieta”.
Un secondo problema è rappresentato dal fatto che è in ogni caso difficile stabilire dei criteri per
identificare una C-UNIT, che possono dover appoggiarsi su confini prosodici (per esempio il limite
di un gruppo tonale maggiore o di un sintagma intonativo). Infine, nel parlato dialogico vi sono
turni di enunciazioni in cui un parlante completa una costruzione sintattica iniziata da un altro
parlante.
Il gruppo di EAGLES (Gibbon, 1999) avverte che sembrano esservi quattro metodi per
segmentare un dialogo in C-UNITS:
1. con criteri interni alla sintassi: due unità analizzabili sono considerate indipendenti se nessun
legame sintattico può essere stabilito in modo plausibile fra di esse. Questa soluzione non
risolve tuttavia il secondo problema individuato sopra.
2. con criteri prosodici, o esclusivamente o in congiunzione con criteri sintattici. Questa soluzione
dipende ovviamente dall’esistenza e dalla qualità di un livello di annotazione prosodica.
3. con criteri ortografici: i segnali di punteggiatura (in particolare i punti e i punti interrogativi)
sono trattati come segnali di confine sintattico. Questo rappresenta il metodo più semplice se si
assume che la trascrizione abbia dei segnali di punteggiatura. Tuttavia è anche il metodo più
arbitrario, poiché i segnali di punteggiatura sono artefatti della trascrizione e sono di fatto evitati
nella maggior parte delle recenti pratiche di trascrizione del parlato.
4. con criteri pragmatici, funzionali o discorsivi. A parte i limiti di turno, che sono senza dubbio il
delimitatore più chiaro che può essere usato per l’analisi sintattica, i criteri pragmatici o
E-56
discorsivi non sono probabilmente più chiari di quelli sintattici. Tuttavia, nello sviluppo di
sistemi di dialogo in ingegneria del linguaggio è stato speso uno sforzo considerevole nel
riconoscimento di segmenti definiti funzionalmente corrispondenti ad atti dialogici (vedi oltre,
paragrafo 4). Inoltre, in questo contesto, l’importanza dell’annotazione sintattica consiste nel
facilitare il riconoscimento automatico e la delimitazione di queste unità funzionali, più che
nell’analisi in sé e per sé. Di conseguenza è ancora tutta da esplorare l’opportunità di utilizzare
dei criteri funzionali come mezzo più affidabile per la segmentazione di dialoghi in unità da
analizzare sintatticamente.
2.4
Raccomandazioni preliminari
L’annotazione sintattica della lingua parlata è tuttora ad uno stadio ancora molto pionieristico, e
le strategie illustrate nelle pagine precedenti devono essere considerate come preliminari ed
incomplete. Premesso questo, è importante notare due cose. La prima è che esiste una serie di
fenomeni che necessita di strategie precise e particolari di annotazione. La seconda è che è
probabilmente possibile fare uso di schemi di annotazione in uso per l’annotazione della lingua
scritta, purché opportunamente estesi ed adattati. I due metodi principali usati, quello normalizzante
che esclude i fenomeni di disfluenza e quello che estende l’annotazione sintattica includendo anche
le disfluenze, hanno dei vantaggi complementari. L’approccio normalizzante consente ai dati parlati
di essere analizzati automaticamente con relativamente poca necessità di adattare il software per
l’input parlato spontaneo, poiché i fenomeni di rumore possono essere eliminati. L’approccio
inclusivo è preferibile nella misura in cui fornisce delle informazioni sintattiche anche per le
incompletezze ed i fenomeni di repair. Infine, si è visto un terzo approccio all’analisi sintattica del
parlato che si discosta dagli approcci tradizionali in quanto anziché basarsi su un’analisi sintattica
completa adotta un’analisi parziale in costituenti immediati. Questa pratica ha l’evidente vantaggio,
come è stato mostrato in molti dei casi esemplificati nelle pagine precedenti, di limitare
l’annotazione a quell’informazione che è sicuramente derivabile in base al contesto disponibile,
senza assumere decisioni arbitrarie. Come ultima considerazione, pare opportuno che qualsiasi
scelta venga effettuata per l’annotazione morfosintattica e sintattica del parlato si conformi quanto
più possibile alle raccomandazioni e alle indicazioni di best-practice espresse nell’ambito di progetti
di standardizzazione a vasto spettro quale, per tutti, il progetto EAGLES.
E-57
3 Livello concettuale
E-58
Questo capitolo è dedicato ad un livello, detto livello semantico-concettuale o concettuale, molto
usato nelle applicazioni di dialogo basate sul linguaggio parlato. Dopo un’introduzione in cui si
richiamano per sommi capi le definizioni e i principali punti di discussione, vengono presi in
considerazione i principali schemi di annotazione per questo livello. Infine, essi vengono
confrontati e discussi.
3.1
Introduzione
In numerose applicazioni automatiche riguardanti il dialogo, siano esse di dialogo uomo-uomo o
uomo-macchina, è stato introdotto un livello di annotazione concettuale, riguardante cioè alcuni
concetti che sono necessari a quella particolare applicazione. Nel caso di richieste di informazioni
riguardanti i voli aerei, ad esempio, è necessario estrarre dalla frase informazioni riguardanti
espressioni temporali, indicazione di luogo – città di partenza e di arrivo – e altre informazioni
legate al dominio.
Le risorse concettuali usate in questi casi dai sistemi di dialogo orale normalmente differiscono a
seconda del dominio di applicazione del sistema e delle strategie di analisi che vengono utilizzate.
La maggior parte dei moduli di analisi dei sistemi di dialogo orale si basa su due componenti
separate: una componente grammaticale per il livello sintattico; e una componente basata su
conoscenze da usarsi per la costruzione di una rappresentazione semantica del contenuto
informativo degli enunciati. Queste conoscenze sono normalmente utilizzate per analizzare gli
enunciati dell’utente (tra gli schemi analizzati soltanto quello sviluppato per il sistema Verbmobil
possiede un componente di generazione–semantico e sintattico, molto dettagliato).
A livello sintattico la maggior parte delle grammatiche utilizza informazioni di natura morfosintattica (per esempio, informazioni di concordanza morfosintattica e di struttura in costituenti o
chunking dell’enunciato analizzato) (vedi sezione II, par. 3). Queste informazioni sono rilevanti sia
quando il modello di parsing adottato nel modulo linguistico tenda ad un’analisi completa
dell’input, sia quando si segua una metodologia di parsing parziale e si analizzino nel dettaglio
soltanto alcune porzioni (isole) dell’enunciato. Inoltre anche alcune metodologie di analisi
linguistica, largamente usate nei sistemi di dialogo orale ‘task-oriented’, quali quelle basate sul
completamento di frames (derivati da aspettative lessicali o pragmatiche) traggono le informazioni
necessarie ad eseguire il completamento dai chunks, o costituenti, rilevanti.
Nell’analizzare gli enunciati in ingresso la fase di analisi morfosintattica costituisce il primo
passo verso l’obiettivo di assegnare una rappresentazione più astratta dell’enunciato dell’utente.
Mentre le etichette che identificano gli oggetti del discorso (i concetti) sono strettamente dipendenti
dal dominio di applicazione, le rappresentazioni semantiche adottate da molti sistemi di dialogo
orale trovano un denominatore comune nelle strutture predicato-argomento. Per esempio, i sistemi
di dialogo orale sviluppati all’interno del progetto europeo ARISE, il sistema Verbmobil e le
rappresentazioni generate nel sistema WAXHOLM utilizzano questo stile di rappresentazione
semantica.
Spesso le strutture predicato-argomento sono arricchite da etichette che identificano relazioni
semantiche o ruoli tematici (come “scopo”, “destinazione”, “tema”, “agente”, ecc). Queste
caratterizzazioni sono strettamente dipendenti dal dominio di applicazione e sono spesso selezionate
in base alle predizioni del sistema di dialogo.
E-59
La lista dei concetti da considerare è invece strettamente dipendente dal dominio. Per portare uno
schema di annotazione da un dominio all’altro è necessario prevedere l’insieme di tutti e soli i
concetti che riguardano quel dominio. A questo proposito, merita di essere menzionato il problema
dell’intersezione di domini diversi. In alcuni casi, infatti, uno stesso dialogo può coprire domini
diversi. Vi sono diversi casi possibili, ma i due estremi sono: è possibile trovare una partizione del
dialogo in diverse parti (sotto-dialoghi), composte da turni completi, ciascuna riferita ad un dominio
diverso, oppure non è possibile trovare tale partizione. Nel secondo caso, il più generale, esistono
dei turni in cui sono espressi concetti relativi a più domini. Il problema può essere espresso più in
generale su cosa fare di quei concetti che pur espressi nel turno non sono utili all’applicazione, o
perchè fuori dominio, o perché successivamente ripetuti e/o corretti.
In quest’ottica, la specifica applicazione determina anche la rilevanza dei vari concetti: quali
concetti sono rilevanti e quindi da annotare. Applicazioni diverse possono richiedere l’estrazione di
concetti diversi. Anche lo schema di annotazione potrà dunque essere più o meno portabile tra le
varie applicazioni, quanto più è in grado di gestire le esigenze di applicazioni diverse.
Come per altri livelli di analisi (lessico, morfologia, dialogo) anche nel caso della
rappresentazione semantica l’utilizzo di corpora costuituisce una fonte preziosa di informazioni da
utilizzarsi sia come corpus di test per verificare la copertura sintattico-semantica dei sistemi di
dialogo orale, sia per ricavare informazioni quantitative da usarsi nei componenti statistici di tali
sistemi. Anche in questo caso la dipendenza del dominio di applicazione è assai elevata, e quasi
sempre l’annotazione dei corpora riflette l’insieme di fenomeni e relazioni semantiche rilevanti per
quel dato dominio.
3.2
Criteri utilizzati per il confronto degli schemi
Il confronto tra i vari schemi di annotazione verrà effettuato rispetto a varie dimensioni che
hanno lo scopo globale di valutare:
•
l'applicabilità dello schema nel caso di linguaggio parlato
•
l'adeguatezza dello schema ad essere proposto come standard.
Per quel che riguarda invece la possibilità di generalizzazione dei vari schemi, questo appare un
fattore particolarmente critico nel caso del livello concettuale, in cui la dipendenza non solo dal
dominio, ma addirittura dalla definizione viene assunta per definizione. Occorrerà quindi valutare la
facilità nel portare ogni schema su domini e applicazioni diverse da quelle per cui è stato progettato.
Il fatto di usare lo schema per annotare dei dialoghi orali influisce non solo su alcune peculiarità del
linguaggio parlato rispetto al linguaggio scritto, ma anche su alcuni degli scopi a cui un corpus
annotato è destinato. Infatti, l’analisi automatica del parlato si fonda in larga misura su metodi
statistici. Pare dunque opportuno valutare anche l’adeguatezza degli schemi di annotazione adottati
alla definizione e identificazione di modelli statistici.
La valutazione dei vari parametri si basa sulla documentazione disponibile per i vari schemi. Per
la maggior parte di loro, ci si può basare solo sull'esperienza degli autori. Dove possibile, però, la
valutazione si baserà su evidenze misurabili, come ad esempio, l’aver portato lo schema su domini
diversi nella valutazione della portabilità su domini diversi, e sull’esame dei criteri di progetto,
laddove ne sia disponibile documentazione.
1. Fenomeni Annotati: lista dei concetti previsti dall’annotazione, anche se limitata al particolare
dominio su cui l’annotazione è stata definita.
E-60
2. Grado di copertura: una valutazione della percentuale di concetti rilevanti per il dominio
annotati; la rilevanza per il dominio dovrebbe qui essere valutata a prescindere dalla particolare
applicazione, in modo da poter dare un punteggio sulla riusabilità dell'annotazione in
applicazioni diverse.
3. Usabilità e perspicuità: si riferisce alla possibilità di avere intersezione non vuota tra
annotazioni di fenomeni diversi, in modo da ridurre il più possibile i casi dubbi in cui
l’annotatore deve soffermarsi. Questo parametro influisce anche sulla possibile analisi del
corpus prodotto con metodi statistici, visto che l’intersezione tra fenomeni diversi introduce
rumore nella stima di distribuzioni di probabilità sugli spazi corrispondenti.
4. Documentazione: la presenza di un manuale di annotazione chiaro e di facile utilizzo facilita le
operazioni di annotazione e migliora l’affidabilità del risultato.
5. Consistenza: questo parametro si riferisce non solo all’assenza di contraddizioni tra fenomeni
annotati, ma al “grado di continuità” dell’annotazione, nel senso che a fenomeni simili
dovrebbero corrispondere annotazioni simili. Anche in questo caso, la consistenza generalizzata
in questo modo risulta particolarmente importante nel caso di analisi statistiche, in quanto
permette di scegliere tra partizioni di interesse nello spazio di probabilità. Nella tabella sinottica,
i due aspetti di non contradditorietà e di continuità verranno considerati separatamente.
6. Grado di portabilità su lingue diverse: questo parametro influisce molto sulla possibilità di
proporre lo schema come standard internazionale.
7. Grado di portabilità su domini diversi: come sopra.
8. Grado di portabilità su applicazioni diverse: come sopra.
9. Puntatori alla sottostringa corrispondente ad ogni fenomeno annotato
10. Adeguatezza alla codifica del parlato
Non sono stati considerati invece:
1. Neutralità teorica
2. Conformità agli standard esistenti: non ci sono noti standard per questo livello, che è
tipicamente molto legato all’applicazione specifica. Le principali applicazioni che ci sono note
sono la richiesta di informazioni nel caso di dialoghi uomo/macchina, risolta con l'accesso ad
una base di dati e applicazioni di traduzione nel caso di dialoghi uomo-uomo.
3.3
Indice degli schemi di annotazione esaminati
Sono stati esaminati quattro schemi per l'annotazione concettuale:
1. ATIS, usato per l'annotazione di una serie di dialoghi uomo/macchina per accesso a
informazioni su voli aerei;
2. VERBMOBIL, usato per annotare una raccolta di dialoghi uomo-uomo nel dominio della
negoziazione di appuntamenti e delle informazioni turistiche;
E-61
3. COCONUT, usato per annotare una raccolta di dialoghi uomo/uomo mediati dalla macchina
con l'obiettivo di concordare l'acquisto di mobili per l'arredamento di due locali; è l'unico caso
in cui lo schema non è stato progettato per l'annotazione del parlato, bensì dello scritto;
4. C-Star, usato per annotare una raccolta di dialoghi uomo/uomo nel dominio delle prenotazioni
alberghiere, dei trasporti e delle informazioni turistiche.
3.3.1 ATIS
Schema adottato per dialoghi uomo-macchina nel dominio delle informazioni riguardanti voli
aerei e per applicazioni di accesso a basi di dati. L'annotazione è una interrogazione SQL (Standard
Query Language), in cui i vincoli espressi nell'interrogazione corrispondono ai concetti.
3.3.1.1 Fenomeni annotati
Vengono annotati tutti i fenomeni utili alla formulazione dell'interrogazione alla base di dati. Ne
viene annotata la presenza nella frase, ma senza riferimento alla sottostringa corrispondente al
concetto. I possibili valori da associare ad ogni concetto corrispondono a tutti e soli i valori presenti
nella base di dati. Viene trattato in modo particolare il caso in cui la richiesta riguardi il valore del
concetto corrispondente: in questo caso, infatti, la posizione del concetto cambia posizione
nell'interrogazione SQL, da vincolo ad argomento del select.
Un’altra interpretazione potrebbe considerare come concetti la combinazione tabella-colonna,
ma in quel caso si perde la fattorizzazione. D’altra parte non c’è possibilità di formulare una
richiesta senza sapere a quale tabella accedere. Va considerato quello che si usa direttamente
nell’annotazione.
109 concetti:
advance_purchase
aircraft_code
aircraft_code_sequence
aircraft_description
airline_code
airline_flight
airline_name
airport_code
airport_location
airport_name
application
arrival_airline
arrival_flight_number
E-62
arrival_time
basic_type
basis_days
begin_time
booking_class
capacity
city_code
city_name
class_description
class_type
code
column_description
column_name
columns
compartment
connections
country_name
cruising_speed
day_name
day_number
days_code
departure_airline
departure_flight_number
departure_time
description
direction
discounted
dual_airline
dual_carrier
economy
end_time
E-63
engines
fare_airline
fare_basis_code
fare_id
flight_days
flight_id
flight_number
from_airport
ground_fare
heading
high_flight_number
hours_from_gmt
leg_flight
leg_number
length
low_flight_number
main_airline
manufacturer
maximum_stay
meal_code
meal_description
meal_number
miles_distant
minimum_connect_time
minimum_stay
minutes_distant
month_name
month_number
night
no_discounts
note
E-64
one_direction_cost
pay_load
period
premium
pressurized
propulsion
range_miles
rank
restriction_code
round_trip_cost
round_trip_required
saturday_stay_required
season
service_name
state_code
state_name
stop_airport
stop_days
stop_number
stop_time
stopovers
stops
table_description
table_name
time_elapsed
time_zone_code
time_zone_name
to_airport
transport_type
unit
weight
E-65
wide_body
wing_span
year
3.3.1.2 Grado di copertura
Se il grado di copertura è riferito all’applicazione, esso è per definizione perfetto, perché annota
tutti e soli quei fenomeni che sono presenti nella base di dati: di conseguenza tutti e soli quei
fenomeni per cui si può fare una richiesta.
3.3.1.3 Usabilità e perspicuità
Anche in questo caso, il fatto di riferirsi ad una particolare applicazione rende l’annotazione
molto chiara, in quanto vengono annotati tutti quei casi per cui ci si aspetta una risposta dal sistema,
e la risposta attesa serve da criterio di disambiguazione.
La documentazione consiste nella descrizione della base di dati, e comprende quindi tutte le
informazioni necessarie all'annotazione. Da notare, inoltre, come questo renda lo schema di
annotazione molto facile da portare su diversi domini, laddove resti fissa l’applicazione, ovvero
l'accesso ad una base di dati (ben documentata).
3.3.1.5 Consistenza
La consistenza dell’annotazione si riconduce alla consistenza della base di dati: possiamo quindi
considerare garantita la non contraddittorietà. Per quel che riguarda la continuità, non è sempre
semplice da valutare. In generale, dipende da come è stata progettata la base di dati. Se essa è stata
progettata con approcci attenti alla struttura complessiva (ad esempio, il modello entità/relazione),
essa dovrebbe essere abbastanza probabile. Ad esempio, in ATIS, l'annotazione appare abbastanza
consistente.
3.3.1.6 Grado di esportabilità a lingue diverse
Poiché l'annotazione è definita sulla base non dei fenomeni linguistici, ma dell'applicazione, il
suo livello di portabilità su lingue diverse è molto alto.
3.3.1.7 Grado di portabilità su domini diversi
È condizionato alla disponibilità della documentazione sulla base di dati; ove si abbia a
disposizione tale documentazione, la portabilità è molto alta e richiede uno sforzo minimo.
E-66
3.3.1.8 Grado di portabilità su applicazioni diverse
Dal momento che lo schema di annotazione si basa sulla struttura della base di dati a cui fare
accesso, la sua portabilità su applicazioni diverse è nulla.
3.3.1.9 Puntatori alla sottostringa corrispondente ad ogni fenomeno annotato
Assente
3.3.1.10
Adeguatezza alla codifica del parlato
Lo schema di annotazione è stato progettato e usato per annotare linguaggio parlato.
3.3.2 VERBMOBIL
VERBMOBIL è un progetto finanziato dal governo tedesco che si occupa di traduzione da
parlato a parlato su domini limitati. Le lingue di ingresso considerate sono: tedesco, inglese e
giapponese.
La prima fase di Verbmobil considera il dominio della negoziazione di appuntamenti; la seconda
fase, invece, considera la pianificazione di un viaggio e prenotazioni alberghiere. In entrambi i
domini assumono una grande importanza le espressioni temporali, per le quali è stato sviluppato un
linguaggio apposta: TEL, Temporal Expression Language. Questo tipo di annotazione pone
particolare attenzione alla necessità di robustezza rispetto agli errori e alle sgrammaticature tipiche
del linguaggio parlato, dove diviene una necessità l'estrazione delle sole informazioni di interesse,
anche in caso di rumore introdotto da tali errori. Per il dominio dei viaggi, invece, è in corso di
sviluppo un secondo linguaggio, DRL, per il quale non è stata ancora pubblicata alcuna
documentazione. Entrambi i formalismi sono stati sviluppati sulla base dei fenomeni effettivamente
trovati nei corpora di VERBMOBIL. Questo dà garanzie sulla robustezza del formalismo
nell'annotazione di dialoghi reali.
TEL si occupa dell'annotazione di espressioni temporali, mentre DRL comprende informazioni
legate al dominio dei viaggi, come città di origine e partenza, dati riguardanti gli alberghi e punti di
incontro.I concetti considerati da DRL sono ovviamente dipendenti dal dominio, tra cui move,
book_action, duration e date; inoltre, essi hanno dei ruoli, come has_move, has_location e
has_book_theme.
Reithinger (1999) presenta i seguenti esempi di uso di TEL:
(1)
sechzen Uhr (le sedici) => [from:[tod:4:0,pod:pm]] dove, tod = "time of day", pod = "part of
day", e quindi l'espressione tra quadre più interna sta per "le ore del giorno 4:00, nella parte del
giorno: pomeriggio (pm)". L'introduzione di un "from" a modificare l'espressione corrisponde
ad un'ipotesi, evidentemente di default, che quando non sia altrimenti specificato, l'espressione
temporale coincide con l'inizio di un intervallo.
(2)
From ten to twelve (dalle dieci alle dodici) => [interval:min_between([tod:10:0],[tod:12.0])]
(3)
E-67
the twenty ninth thirtieth and thirty first (il 29 30 e 31) => [from:set(dom:29,dom:30,dom:31)],
dove dom = “day of month” indica il giorno del mese, mentre “set” indica che si tratta di una
lista
e di DRL
(1)
we take the train at seven to berlin (prendiamo il treno alle sette per berlino) =>
[suggest,traveling,has_move:[move,
has_date:[date,tempex='tempex(i1,[from:tod:7:0])'],
has_dest_location:[geo_location,has_name='berlin'],
has_transportation:[rai]]]
In cui “suggest” è un atto del dialogo che verrà trattato nella prossima sezione; “travelling”
indica l’argomento del dialogo; il resto indica uno spostamento, insieme con gli attributi relativi allo
spostamento. Altri possibili argomenti sono: scheduling, accomodation, entertainment.
Da notare che non ci sono puntatori che riportano i singoli attributi a sottostringhe: il tutto viene
fatto a livello di unità semantica. Inoltre non è chiaro in quale modo i due formalismi, TEL e DRL
possono essere usati assieme e messi in relazione.
TEL divide le espressioni temporali in tre grandi categorie:
a) espressioni temporali che indicano una durata (DURATION)
b) espressioni temporali che indicano un punto fisso (POINT)
c) espressioni temporali che indicano una data (DATE)
Ogni categoria viene suddivisa in sottocategorie più piccole, che servono per annotare le
espressioni temporali in modo molto preciso e granulare. Per le espressioni che indicano una durata
vengono individuate le seguenti sottocategorizzazioni:
1) BASIC_DUR, ovvero espressioni di durata semplici;
2) RANGE, intervalli di tempo;
3) FUZZY_DUR, espressioni di durata imprecise;
4) ANA_DUR, espressioni anaforiche come ad esempio, "non più a lungo di quanto ho detto";
5) top-level, cioè un insieme di espressioni temporali che indicano una durata.
Per le espressioni che indicano un punto nel tempo preciso si identificano le sottocategorie:
E-68
1) espressioni temporali semplici: indicazioni di ora e parte del giorno; giorno della settimana;
giorni festivi (Natale, Pasqua..., viene indicata una lista precisissima di giorni festivi);
settimana, mese, anno;
2) espressioni temporali complesse: intervalli di tempo; indicazioni relative (SHIFT), cioè
espressioni del tipo "tre settimane dopo Pasqua"; espressioni temporali numerabili (ad es. "il
terzo sabato dopo Capodanno"); indicazioni temporali relazionate ad altri elementi (es. "la
settimana del dodici"); espressioni temporali deittiche; espressioni temporali con
modificatori (presto, tardi, la prima meta'...); espressioni quantitative (ogni lunedi');
espressioni anaforiche.
DRL considera invece espressioni legate al dominio.
TEL pare coprire tutte le possibili espressioni temporali. La documentazione non è sufficiente a
valutare la copertura nel caso di DRL, anche se l’affermazione che è stato sviluppato a partire da
corpora di dati reali dà qualche garanzia.
Il formalismo di TEL pare molto completo, anche se un po’ complesso. È possibile che alcune
delle assunzioni di default fatte creino problemi.
La documentazione per TEL si basa su un rapporto di VERBMOBIL che pare molto completo,
ma è in tedesco. Invece, non è disponibile alcuna documentazione pubblica per DRL.
3.3.2.5 Consistenza
Per TEL la consistenza pare garantita dall'accuratezza della progettazione. Per DRL, la
documentazione a nostra disposizione non è sufficiente per alcuna valutazione.
Da (Reithinger 1999) si potrebbe evincere che sia stato provato su almeno tre lingue: tedesco
inglese e giapponese, anche se questo non viene affermato esplicitamente. La non disponibilità di
manuali di annotazione in lingue diverse dal tedesco fa supporre il contrario, ma potrebbe essere
spiegato dai criteri di riservatezza adottati in VERBMOBIL.
Le espressioni temporali rappresentano uno dei fenomeni di più complessa gestione
nell'annotazione concettuale; inoltre, esse sono molto importanti perché presenti in quasi tutti i
domini. In questo senso la portabilità di TEL su domini diversi appare molto buona. DRL, invece, è
completamente dipendente dal dominio.
E-69
L’applicazione di traduzione richiede di gestire tutti i fenomeni rilevanti per il dominio.
Un’annotazione sviluppata per traduzione, quindi, dovrebbe presentare un buon grado di portabilità
anche su applicazioni diverse.
Assente
3.3.2.10
3.3.3 Coconut
L’obiettivo del progetto COCONUT è quello di etichettare un corpus di dialoghi digitati a
computer (e quindi si tratta di dialoghi uomo-uomo mediati dalla macchina). Non sono comunque
registrazioni vocali, ma scritte a calcolatore e trasmesse all'altro partner in tempo reale. I dialoghi
hanno lo scopo di spendere un fondo comune per arredare due stanze (cucina e soggiorno): è data
una certa somma da spendere; inoltre ogni soluzione guadagna più o meno punti a seconda di
quanto la spesa effettiva si avvicina alla somma disponibile, di quanti mobili sono stati comprati, e
di quanto stanno bene assieme. L'annotazione prevista in COCONUT prevede l'uso di diversi menu.
Nel menu "topic" è prevista l'annotazione di alcuni fenomeni che potrebbero essere inclusi
nell'annotazione concettuale. L'obiettivo di questo menu è di descrivere di cosa parla la frase. In
questa dimensione vengono codificati due aspetti semi-indipendenti:
1) il soggetto vero e proprio, e
2) l’atteggiamento di chi parla
Come soggetto viene registrato se si sta parlando di un mobile, di soldi o di punti. L’aspetto
atteggiamento, invece, registra l’atteggiamento di chi parla nei confronti dell’oggetto di cui si parla,
sia esso un pezzo di mobilio, il budget o i punti accumulati, oppure verso una possibile soluzione o
piano. Non si applicano ad altri soggetti della conversazione. L’altro menù che può essere
ricollegato al livello concettuale è il menù ItemFeature, che riguarda le proprietà degli oggetti in
esame. In particolare:
1) prezzo, colore, tipo e punti;
2) possibili combinazioni delle proprietà di cui al punto 1;
3) genl, per “in generale”: viene usato per indicare una soluzione o un piano nel loro complesso
Ricapitolando, quindi COCONUT considera le seguenti caratteristiche che sono riconducibili al
livello concettuale:
E-70
Soggetti
•
riguardanti il mobilio:
1. needItem
2. haveItem
3. getItem
4. elaborateItem
5. otherItem
•
riguardanti il budget:
1. budgetAmount
2. budgetRemains
3. costAccum
•
riguardanti i punti
1. pointAmount
2. pointAccum
Atteggiamenti
1. evaluate: con valori positivo o negativo
2. relate: con valori better, worse, same, different
Proprietà:
1. prezzo, colore, tipo, punti
2. combinazioni di tali proprietà atomiche
3. generale
La copertura dell’etichettatura concettuale di COCONUT va riferita specificatamente non solo al
dominio, ma alla particolare applicazione e allo scenario adottato, che appare piuttosto limitato. In
altre parole, sono stati limitati i concetti presenti nel corpus, e solo essi vengono coperti.
Le regole d’uso non appaiono né molto semplici né molto chiare dal manuale.
E’ disponibile un manuale di annotazione (Di Eugenio, Jordan & Pylkkänen, 1998).
3.3.3.5 Consistenza
Essendo l’annotazione limitata a pochi fenomeni, l’annotazione è consistente.
E-71
Anche se è stato provato solo per l’inglese, lo schema in sé non appare particolarmente legato a
questa lingua. E’ diverso il discorso per quanto riguarda il manuale di annotazione, che si basa
pesantemente sull’uso di espressioni inglesi (ad esempio, per spiegare l’uso di getItem).
L’annotazione è molto legata al tipo di corpus raccolto per COCONUT: non appare facilmente
portabile su altri domini.
Come sopra.
Assente.
3.3.3.10
Lo schema di annotazione è stato progettato e usato per annotare linguaggio scritto: la portabilità
sul linguaggio parlato potrebbe presentare qualche difficoltà.
3.3.4 C-Star
L’annotazione considerata in C-Star è finalizzata ad applicazioni di traduzione da parlato a
parlato: è dipendente dal dominio e vuole essere quanto più possibile indipendente dalla lingua. E’
stata portata su domini diversi: trasporti (prenotazioni alberghiere, trasporti, comprendenti treni e
aerei, e informazioni turistiche).
L’annotazione concettuale corrisponde in C-Star al livello di argomenti. Gli argomenti sono
coppie nome/valore, dove corrisponde al nome dell’argomento, mentre il valore può essere atomico
o composto. La definizione sintattica è indipendente dal dominio, mentre la lista dei nomi degli
argomenti e dei possibili valori atomici è strettamente legata al dominio. La definizione della
sintassi degli argomenti segue le seguenti regole:
•
N = V, dove N è un nome e V un valore, è un argomento
•
Dati due argomenti P e Q, allora sono argomenti anche P, Q (lista); P ; Q (disgiunzione) e P
& Q (congiunzione)
•
Dati due valori V1 e V2, allora sono valori anche V1, V2 (lista); V1 ; V2 (disgiunzione); V1
& V2 (congiunzione)
•
Se V è un valore, allora (V, quantity=n) è un valore
•
Nè gli argomenti nè i valori seguono un ordine particolare
E-72
Date queste regole, la definizione è completata dalla lista dei nomi e dei valori atomici
corrispondenti al dominio considerato. Merita un commento la penultima regola: l’introduzione
dell’argomento quantity permette di introdurre in modo omogeneo il numero di oggetti
considerato:
room-type=(double, quantity=2) sta per due doppie
In alcuni casi, però, quantity può venir usato come un argomento qualunque:
duration=(time-unit=day, quantity=14) sta per quattordici giorni
Viene dapprima definito un insieme di macro, usate per fattorizzare insiemi di valori tra loro
omogenei:
(*activity* nature_hike dining shopping sightseeing hiking boating biking
climbing rock_climbing mountain_biking swimming horseback_riding archery golf
orienteering skiing snow_skiing downhill_skiing cross-crountry_skiing
water_skiiing ice_skating curling surfing hang-gliding paragliding cannoeing
cayaking parachuting flying roller_blading rafting scuba_diving snorkling
alpinism camping curling ski_jumping ski_alpinism ski_extreme telemarking
monoski_surfing sledge-dogging touring tennis mountaineering)
(*person-name* (<person-title> <given-name> <secondary-name> <family-name>))
(*secondary-name* [a-z] *first-name* *family-name*)
(*family-name*
abe cho choi chung degasperi brown ferrari gates hadley
harris hayashi helman helwig hwang johnson kato kim klein lavie lee maeda
maier malkin mattis meyer mueller nelson newman noh ohtsuki okada park
philips phillips sakamoto sato schmidt shimizu shin siegler simmons smith
son song stevens sullivan sung suzuki tanaka vaidya waibel watanabe watson
won yu )
(*given-name*
annamaria byeongsun byeongyun byungsu byungtae changsu cheolho
cheongsuk chinyoung chihun einseop gianfranco kyoko kenji alex alon william paul
jack lisa sondra sarah jennifer akira amy andrea anuj barb bob brian
carla carol chaemin chet chris cindy dave david debbie detlef dongkwang
donna eincheol hiroko hiroshi hyeongil hyeojeong hyunkil ian jackie jan
jane jeanie jen jieun john johnny judy karen kazuko kazuo keunho klaus
lori martin mary matthew matthias monika naoko patty peter rob roger
sam sandy seolhyung seungyeon sharon sherry soyeon sunmyung susan takeshi
tanja taro thomas todd tony yoko yonggu younggu yumi youngseon youngsin
yugyeong)
(*dow*
monday tuesday wednesday thursday friday saturday sunday dow-question)
(*currency* dollar us_dollar euro canadian_dollar pound british_pound lira yen
japanese_yen mark german_mark won korean_won franc swiss_franc french_franc
belgian_franc peseta peso question)
(*cstar-name* cmu etri atr irst clips uka)
(*travel-agency* cstar_travel american_travel_bureau japanese_travel_bureau
pacific_tour pittsburgh_travel world_wide_travel gray_line globetrotter_viaggi
washington_tour atlanta_tour)
(*hotel-name* aliz alpha astoria ambassador admiral arena albergo_arena
albergo_gabbia_doro alps_hotel atria bahnhofshotel belvedere
E-73
best_western_pittsburgh best_western capriolo chicago_park europaeischer_hof
golden_star grand grand_hyatt grand_view hyatt hilton holiday_inn
holiday_inn_crowne_plaza holiday_inn_pittsburgh hotel_d_angleterre hotel_de
l_institut hotel_europe hotel_frantour hotel_heinz hotel_mercure
hotel_suisse_et_bordeaux hotel_terminus ibis kamogawa_ryokan keio_plaza
koellner_hof kyoto_century kyoto_tourist le_president les_trois_roses madison
man_nyon_park_hotel manhattan miramonti new_miyako miyako new_yorker
new_york_city new_washington new_ohtani omni_prince osaka_imperial park_hotel
plaza ramada_inn renaissance ritter ritz_carlton royal_plaza
royal_tourist_hotel san_marco schlosshotel sheraton sheraton_manhattan
shilla_hotel silla_hotel stazione takaragaike_prince tokyo_hotel touring_hotel
new_grand yusung_tourist_hotel washington washington_hilton wellington question)
(*city-name* city-question atlanta beppu berlin boston brennero chicago detroit
edinburgh frankfurt fuessen fukuoka grenoble hakone heidelberg karlsruhe kimpo
kobe kuam kyeongju kyoto kyougju las_vegas london los_angeles
madonna_di_campiglio mexico_city miami moena munich nagasaki nara narita
neuschwanstein new_york_city niagara_falls osaka paris pittsburgh pusan rome
rothenburg rovereto san_francisco saipan san_michele_all_adige seattle seoul
st_louis taejon tokyo trento val_di_fassa vancouver venice verona washington_dc)
(*area-name* area-question black_forest rhein_valley piazza_bra greentree
oakland america yellowstone cheju_island chiri_mountain kyeogju_bomun_site
kyeoryong_mountain najeong_beach pacific_ocean toham_mountain
upper_and_lower_manhattan east_coast europe asia middle_east)
(*state-province-name* state-question province-question alaska california
florida new_york pennsylvania hawaii washington ontario quebec pfalz
baden_wuerttemberg baden bavaria))
(*country-name* country-question united_states japan germany spain italy korea
france canada israel australia great_britain)
(*tourist-site* arts_festival bulguk_temple carnegie_museum
carnegie_museum_of_art museum_of_natural_history statue_of_liberty
un_headquarters yankee_stadium un_nations_building
pittsburgh_three_rivers_arts_festival kabuki theatre gion_festival
cherry_blossom_festival opera zepplin_museum staedel_museum goethe_museum
paulskirche boerse roemer palmengarten isartor castle_neuschwanstein castle
castle_gardens deutsches_museum loreley pinakothek boat_trip sightseeing_tour
beer_garden temple shopping)
(*sight-type* sight type art_collection battle_field beer_garden brewery
building castle cathedral church exhibit expo historical_site hot_spring house
lake market memorial monument mountain mountains museum opera_house palace park
plaza river shrine stadium temple university war_memorial place)
(*sight-name* adige_river alpine_botanical_gardens alps alters_rathaus
alte_pinakothek andy_warhol_museum antique_street arco_castle arena_di_verona
asakusa_kannon_temple autrans_vercors beseno_castle boerse brenta_river
bulguk_temple buonconsiglio_castle_museum cmu etri atr irst clips uka
carnegie_museum carnegie_museum_of_art carnegie_science_center castle_gardens
caves_et_distillerie_de_la_chartreuse chamrousse changgyong_p_ango
chemin_de_fer_de_la_mure cherry_blossom_festival chinatown chongmyo_shrine
ch_angdukkung_palace compagnie_serge_papagalli_theatre deutsches_museum
diocesan_museum disney_land duomo_cathedral dusquesne_incline
ensemble_departemental_d_art_sacre_contemporain_de_l_eglise_de_saint_hugues_de_c
hartreuse falling_water fifth_avenue folk_village frauenkirche fuji-mountain
funiculaire_de_saint_hilaire_du_touvet ginkakuji_temple gion gion_festival
goethe_house goethe_museum grand_angle grand_central_station grotte_de_choranche
grotte_de_la_balme haeinsa_temple heian_shrine heidelberg_castle hollywood
horyuji_temple isartor itaewon kabuki_theatre kapsa_temple kimchi_museum
kinkakuji_temple kiyomizu_temple kofuku-ji_temple kumsan_ginseng_market
E-74
kyeryongsan_national_park kyongbokung_palace kyoto_imperial_palace lans-envercors la_bastille les_deux_alpes les_sept_laux-prapoutel loreley l_alpe_d_huez
madison_avenue maison_de_la_culture maison_stendhal manhattan
metropolitan_museum_of_art minami-za_theater monastere_de_la_grande_chartreuse
mt_bondone mt_kaya mt_kyeryongsan mt_kyeryongsan_national_park mt_pomunsan
munich_stadtmuseum musee_archeologique_de_l_eglise_saint_laurent
musee_dauphinois musee_des_tresors_de_l_eglise_abbatiale musee_de_grenoble
musee_de_la_correrie musee_de_la_resistance_et_de_la_deportation
musee_de_la_revolution_francaise musee_stendhal museo_diocesano
museum_of_fine_arts museum_of_modern_art museum_of_natural_history
museum_of_uses_and_customs_of_the_trentino_people myong-dong namdaemun_market
nanno_castle nara_park nature_museum naturmuseum_senckenberg neckar_river
neues_rathaus neue_pinakothek neuschwanstein_castle nijyo_castle
nymphenburg_castle opera oper_frankfurt osaka_castle palazzo_delle_albere
palmengarten parc_archeologique_de_larina park_avenue paulskirche pinakothek
pittsburgh_dance_council pittsburgh_public_theater
pittsburgh_three_rivers_arts_festival pulguksa_temple rocca_di_riva
rockefeller_center roemer ryouanji_temple santa_maria_maggiore_church soho
sokkuram_grotto sokkuram_grotto staedel_museum station_square statue_of_liberty
stenico_castle st_peter summumav_innsbruck taedok_science_town
taejon_expo_science_park tanghaksa_temple telepherique_de_grenoble
theatre_de_grenoble thun_castle toblino_castle todai-ji_temple tonghaksa_temple
trentino_castle universal_studio un_building un_headquarters venetian_villas
world_trade_center yankee_stadium yasaka_shrine yusong_hot_spring
zepellin_museum rheinfahrt loreley romantische_strasse burgen_strasse )
(*event-name* gion_festival pittsburgh_symphony_orchestra
commedia_dell_arte_performance yusong_hot_spring_festival taekgyon hanami kouyou
omizutori teleferique_ride pittsburgh_three_rivers_regatta oktoberfest
pittsburgh_three_rivers_arts_festival cherry_blossom_festival
carpenter_collection cats les_miserable phantom_of_the_opera world_series)
(*location* *hotel-name* *city-name* *area-name* *state-province-name*
*country-name* *tourist-site* any verona_catullo_airport gatwick station
pusan_seobu_terminal abroad airport area downtown hotel museum place tour_desk
front_desk main_lobby major_hotel near [nth]_floor south_entrance here there
town city outskirts safe_area outside inside)
(*airport* (see the file "airport.values"))
;; removed daily and everyday (see frequency=), removed noon (use 12pm)
(*time* *hour-minute* *md* *dow* *year* *month* year day week week-question
night morning late afternoon evening approximate question <after> <before>
<end-time> <start-time> *time-ref*_*dow* *time-ref*_morning *timeref*_afternoon *time-ref*_evening *time-ref*_night *time-ref*_day *timeref*_*year* *time-ref*_year *time-ref*_month *time-ref*_*month* *time-ref*_week
tomorrow yesterday today day_after_tomorrow soon immediately later monthquestion then)
(*time-ref* last next following this that each beginning middle end first second
third fourth previous)
(*year* 1998 1999 2000 2001 2002 2003 2004 2005)
(*md* md1 md2 md3 md4 md5 md6 md7 md8 md9 md10 md11 md12 md13 md14 md15 1md6
md17 md18 md19 md20 md21 md22 md23 md24 md25 md26 md27 md28 md29 md30 md31 mdquestion)
(*who* people i we you he she they adult child husband wife spouse conductor
family travel_agent client customer everyone friend branch *person-name*)
(*what* thing heliport meal garage breakfast lunch dinner tax breakfast_buffet
E-75
continental_breakfast english_breakfast nice *currency* *information*)
;; "booking number" is a reservation_number
(*information* pamphlet brochure information confirmation_number
reservation_number number telephone_number fax_number fax location time money
price_information summary itinerary)
(*train-name* amtrak renfe)
(*carrier-name* british_airways usair twa iberica sas ke korean_airlines
delta_airlines northwest panam japan_airlines all_nippon_airway united
air_france air_pacific american mexican_airlines asian_airlines lufthansa)
(*taxi-name* peoples_cab checker_cab yellow_cab)
(*hour-minute* 00:01to24:00 hour-question)
(*special-modifier* question negation any same)
(*general-modifier* additional best better different good clean typical quiet
beautiful famous interesting popular fun new other *special-modifier*)
(*size-modifier*
big bigger biggest small smaller smallest medium *special-
modifier*)
Di seguito, tali macro verranno usate per associare ai diversi nomi di argomento (prima del
segno di uguaglianza) la lista dei possibili valori che vi si può associare:
(bank=
question mellon banca_centrale negation)
(account-name= question *person-name* negation)
(account-number= [n/a-z] question negation)
(activity= *activity*)
(admission-type= question negation admission type ticket fee registration)
(affiliation=
question
negation
*travel-agency*
carnegie_mellon_university
*hotel-name* united_nations_tour_desk arena *taxi-name* *carrier-name* *cstarname*)
(after= question *hour-minute*
<quantity> <time-unit>))
*md*
*dow*
*year*
*month*
(<order-ref>
(order-ref= *time-ref*)
(age= <quantity> year month under over question
negation)
(bed-type= bed twin double king queen *general-modifier* *size-modifier*)
(before= question negation (<quantity> <time-unit>))
(x-car-size= *size-modifier* x-mid-sized x-compact x-economy x-subcompact)
(x-car-type= x-car x-mini-van x-sedan *general-modifier*)
(x-car-make= question
negation x-honda x-hyundai x-toyota x-dodge)
E-76
(x-car-model= question
negation x-coup x-neon )
(carrier-name= question negation
*carrier-name*)
(change-from= question [any-arg])
(change-to= question
[any-arg])
(class= question negation class first second third ambassador cl-business coach
economy a b c)
(connection-type= question negation
connection nonstop connecting stopover)
(contain= question negation balcony cot kitchen mini_kitchen bedroom living_room
bathroom standard tv color_tv minibar
elevator telephone shower private_bath
wheelchair_access
adaptor
electric_adaptor
telephone_plug
modem_plug
plug_adaptor safe room_safe hotel_safe heliport)
(destination= question negation *location*)
(distance= (<quantity> <distance-unit> <locomotion> <origin>) walking close far
question negation )
(distance-unit= question negation minute hour day mile foot yard meter kilometer
centimeter)
(duration= (<order-ref> <quantity> <time-unit>) x-extended approximate exact
longest shortest longer shorter long short minimum maximum entire-time question
negation )
(end-time= question negation *time*)
(event-name= *event-name*)
(event-type= question negation type event jazz omnimax party open_house
arts_festival
beer_festival
cruise
exhibition
festival
baseball_game
football_game american_football_game movie play musical opera concert kabuki
film
dance_performance
theater_performance
broadway_musical
mask_dancing
sacrificial_music
sacrificial_rites
science_expo
show
traditional_dance
breakfast lunch dinner )
(event-group=
pittsburgh_pirates
atlanta_braves
new_york_mets new_york_yankees la_dodgers la_lakers)
pittsburgh_steelers
(flight-type= flight express domestic international *general-modifier*)
(flight-number=
question negation
[n/a-z])
(train-number=
question negation
[n/a-z])
(for= question negation *what* cot)
(for-whom= question negation *who*)
(frequency=
negation
frequent infrequent daily question (<quantity>, <timeunit>) (<quantity>, <per-unit>))
(hotel-facility= question negation sauna bar meeting_room restaurant
outdoor_pool indoor_pool gym garage parking private_parking storage_room)
(hotel-name= question negation *hotel-name*)
E-77
pool
(hotel-service= question negation porter maid-service housekeeping 24hr-roomservice room-service dry-cleaning valet-parking babysitting internet)
(hotel-type= hotel motel inn
four_star five_star six_star
*general-modifier*)
(how-many= [n] question
pension hostel one_star two_star three_star
western_style japanese_style *size-modifier*
negation)
(include= question negation breakfast lunch meal dinner taxes breakfast_buffet
continental_breakfast english_breakfast movie mile unlimited-mileage
beach
all-meals extra_driver reservation_charge supplement )
(language= question negation japanese english spanish german italian french
korean)
(letters= [a-z] question negation )
(location= *location* question negation )
(locomotion= on-foot car bus train question negation)
(meal-type= meal breakfast continental_breakfast
dinner snack *size-modifier* *general-modifier*)
full_breakfast
brunch
lunch
(method= eurocheque mastercard visa diners_card discover travelers_check cash
major_credit_cards
group_credit_card
american_express
question
credit-card
bank_transfer check question negation)
(numeral= [n/a-z] question negation)
(occupancy= [n] question negation)
(office= question negation reservation_assistance help_desk info_desk)
(origin= *location* away question negation)
(family-name= *family-name*)
(given-name= *given-name*)
(secondary-name= *given-name* *family-name*)
(person-name= *person-name* question negation)
(price= question negation approximate better reasonable expensive too-expensive
more-expensive most-expensive cheap cheaper cheapest free less total additional
different minimum maximum half 2x 3x quarter third (<quantity> <currency> <perunit>))
(price-type= question negation tax surcharge supplement service_charge price)
(per-unit= each adult child night day week person couple family first_night
total mile kilometer gallon liter percent *what*)
(currency= *currency*)
(purpose= question
*activity*)
negation
business
business_trip
E-78
vacation
*event-name*
(quantity= [n] question negation all both couple either few many several some
half quarter third)
(rate= question negation hourly daily nightly weekend weekly monthly annual
special discount corporate_discount aaa_discount)
(room-location= question negation floor wing same_floor [nth]_floor top_floor
west_wing east_wing north south adjoining)
(room-number= [n/a-z] question negation)
(room-type=
room luxury modest matrimoniale twin double single family suite
junior_suite senior_suite bedroom meeting conference smoking non-smoking
western_style japanese_style *general-modifier*)
(room-size= *size-modifier*)
(room-view=
city-view ocean-view view)
(row-number= [n/a-z] question negation)
(seat-type=
modifier*)
seat
aisle
window
smoking
non-smoking
*size-modifier*
*general-
(sight-name= question *sight-name*)
(sight-type= question negation *sight-type*)
(send-by= fax phone mail e-mail question negation)
(smoking-section= available unavailable not_permitted)
(nonsmoking-section= available unavailable)
(start-time= *time*)
(telephone-number= question [n])
(time= *time*)
(time-unit= day night minute hour week month year sec weekend)
(to-whom= *hotel-name* hotel *who* question negation)
(tour-name=
question
negation
national_museum_tour
Half-around_Japan_tour
sound_of_music_tour folk_village_tour pottery_village_tour)
(tour-number= question [n/a-z])
(tour-type= day_trip full_day half_day package_tour group_tour individual_tour
tour cruise bus_tour bicycle_tour hiking_tour helicopter_tour balloon_tour
airplane_tour museum_tour city_tour castle_tour river_cruise walking_tour
sightseeing_tour guided_tour *size-modifier* *general-modifier*)
(train-name= *train-name* question negation)
(train-type= ave ec ice train eurostar intercity interregionale talgo express
bullet shinkansen *size-modifier* *general-modifier*)
(train-facility=
modifier*)
sleeping_car
lounge_view_car
E-79
restaurant_car
bar
*general-
(transportation-name=
*taxi-name*)
question
negation
(transportation-type= transportation
flight train ground rental_car car
modifier*)
*train-name*
on-foot metro bus 28x_shuttle shuttle
taxi public
*size-modifier* *general-
(transportation-number= question negation
(trip-type= trip one_way round_trip
eastern *general-modifier*)
port_authority_transit
[n/a-z])
package_tour
transfer
outgoing
return
(what= *what* question negation)
(of-what= family_name given_name person_name secondary_name)
(to-what= *what* question negation)
(via=
*location* question negation)
(web-page-object= question www title frame web_page section link)
(web-page-image= question image icon photo drawing paragraph map description)
(web-page-information= question *information*)
(temperature= hot cold freezing warm cool degree degree-f degree-c degree-k
question negation below-freezing high moderate low)
(time-relativity=
this_time_of_year now then soon early earlier late later
before after question negation)
(weather= good best better bad rain snow sleet hail icy clear sunny overcast
windy humid dry question negation)
(season= rainy dry summer winter fall spring monsoon question negation)
(who= *who* question negation)
(with-how-many= [n] question negation)
(with-whom= *who* question negation)
(address= (<po-box-number> <street-number> <street-name> <city> <state-province>
<country> <zipcode-number> <apt-number>) question negation)
(city= *city-name* question negation)
(state-province= *state-province-name* question negation)
(country= *country-name* question negation)
(street-number= [n/a-z] question negation)
(apt-number= [n/a-z] question negation)
(po-box-number= [n/a-z] question negation)
(zipcode-number= [n/a-z] question negation)
E-80
(street-name=
forbes_avenue
question negation)
fifth_avenue
madison_avenue
corso_san_giovanni
(person-title= mr mrs ms miss dr prof)
(nationality= question negation *country-name*)
(speed=
question negation fast slow faster slower (<quantity> <distance-unit>
<time-unit>))
La lista di argomenti elencata al punto precedente è stata messa a punto sulla base dello studio
dei corpora raccolti dai singoli partner indipendentemente. Dovrebbe quindi garantire una buona
copertura per lo meno per quel che riguarda lo scenario adottato. Ovviamente, laddove lo scenario
venga variato, anche senza cambiare il dominio, occorre variare almeno la lista dei valori per gli
argomenti considerati: ad esempio, la lista delle località turistiche dipende dalle località considerate
per la visita.
Lo schema è stato studiato in modo da non introdurre ambiguità.
La documentazione consiste in un manuale che descrive la sintassi seguita dalle coppie nome di
argomento/valore e dalla lista dei nomi di argomento per il dominio considerato, insieme ai
possibili valori.
3.3.4.5 Consistenza
È stata curata in fase di progettazione dell’annotazione: ad esempio, sono stati evitati ove
possibile, l’uso di valori uguali con significati diversi (l’espressione “seconda classe” viene
annotata come class = second, mentre la durata temporale “un secondo” viene annotata con
duration=(quantity=1, time-unit=sec)). Anche la continuità è abbastanza buona, a parte
qualche caso isolato che non incide sulla valutazione globale, in quanto di facile correzione.
L'annotazione concettuale in C-Star è stata sviluppata sulla base dell'esperienza di annotazione
su sei lingue diverse: italiano, francese, tedesco, inglese (americano), coreano e giapponese. Questo
sembra garantire una buona portabilità inter-lingua, vista oltretutto la presenza di lingue asiatiche
accanto alle europee.
Per ogni nuovo dominio, va specifica la lista dei nomi di argomento assieme alla lista di valori
che può assumere; la sintassi delle etichette invece è fissa.
E-81
Essendo un’applicazione di traduzione, in cui si cerca di riportare tutto il contenuto informativo
della frase che sia legato al dominio, l’insieme dei fenomeni annotati è il più ampio possibile (in
relazione al dominio) e dovrebbe garantire una buona portabilità, che però non ci risulta essere stata
mai sperimentata.
Assente.
3.3.4.10
3.3.5 Riepilogo
ATIS
VERBMOBIL
TEL
COCONUT
C-STAR
DRL
Fenomeni
annotati
concetti legati a
dominio e
applicazione
espressioni
temporali
concetti legati concetti specifici
al dominio
dello scenario
Copertura
relativa
all’applicazione
buona
???
relativa
all’applicazione
buona
Usabilità
ok
ok
???
ok
ok
Documentazione
ok
in tedesco
no
ok
ok
Consistenza
ok
ok
???
buona
buona
Consistenza:
continuità
dipende dalla
base di dati
ok
???
buona
abbastanza
buona
possibile
provata
scarsa
provata
Portabiltà interlingua
provata
Portabilità interdominio
facile
Portabilità interapplicazione
nulla
traduzione
scarsa
traduzione
assenti
assenti
assenti
assenti
per definizione
forse
per
definizione
Puntatori
Adeguatezza al per definizione
parlato
provata
concetti
legati a
dominio e
applicazione
buona
non
determinabile
E-82
3.3.6 Conclusioni
Dalle brevi note e dall’esame dei quattro schemi considerati crediamo di poter concludere che i
moduli di analisi sintattico-semantica dei sistemi di dialogo orale tipicamente utilizzano conoscenze
semantiche che sono strettamente legate alle relazioni tematiche e semantiche del dominio di
applicazione. Un certo livello di comunalità tra approcci teorici diversi al parsing e tra applicazioni
diverse è data dall’adozione di stili di rappresentazione semantica che si basano sulle strutture
predicato-argomento.
L’annotazione dei corpora utilizzati come risorsa per l’addestramento dei sistemi o come test
suites per la valutazione delle loro prestazioni riflette questa dipendenza dal dominio di
applicazione
I tentativi di standardizzazione tesi a favorire la riutilizzabilità dei corpora, come in questo
progetto, devono orientarsi a garantire da un lato la possibilità di definire all’interno dello schema di
annotazione le etichette dipendenti dal dominio che sono proprie di ciascuna applicazione, dall’altro
le specifiche per un formalismo di annotazione che consenta di rappresentare le relazioni
semantiche dipendenti dal dominio in termini di relazioni predicato-argomento.
In tutti gli schemi considerati l’annotazione concettuale si riferisce ad un’intera unità semantica
in cui può essere implementato più di un concetto. Lo schema di annotazione TEL per le espressioni
temporali pare interessante per livello di generalità, ma per poter decidere bisognerebbe studiare il
manuale (in tedesco). Lo schema proposto da COCONUT pare troppo legato alla particolare
applicazione, e così pure lo schema usato da ATIS, troppo legato alla base di dati di riferimento.
E-83
4 Livello pragmatico
E-84
4.1
Overview
Lo scopo di questo stato dell’arte è quello di fornire informazioni di base per le specifiche di
annotazione del livello concettuale pragmatico che saranno adottate all’interno del progetto SITAL. Il presente rapporto è composto da due parti.
Nella prima parte si è proceduto alla descrizione e all’analisi degli schemi di annotazione
attualmente esistenti sviluppati dai vari gruppi di ricerca in ambito europeo, americano e giapponese
per annotare corpora di lingua parlata in lingue diverse. L’obiettivo è stato quello di fornire un
quadro della realtà di partenza il più possibile completo ed aggiornato.
Nella seconda parte si è poi passati al confronto dei fenomeni pragmatici identificati e classificati
nei diversi schemi di annotazione ed alla successiva valutazione degli schemi stessi allo scopo di
verificare la loro conformità ad un insieme di requisiti generali.
4.2
Introduzione
L’annotazione linguistica ha recentemente conosciuto un impiego sempre maggiore nell’ambito
dello studio scientifico del linguaggio, della ricerca e dello sviluppo delle tecnologie legate al
linguaggio, e, più in generale, delle applicazioni ad esso connesse. Si sono registrati molti sforzi
indipendenti messi in atto al fine di fornire degli strumenti software atti a creare annotazioni
linguistiche, produrre formati generali per esprimerle e sviluppare degli strumenti software in grado
di creare database linguistici annotati e di consentire delle interrogazioni al loro interno. Negli
ultimi quindici anni sono stati realizzati centinaia di database annotati linguisticamente.
Mentre l’utilità degli strumenti software, formati e database esistenti è indubbia, la loro varietà e la mancanza di standard in grado di mediare fra loro – sta diventando un problema di importanza
fondamentale. Generalmente le basi di dati sono create per esigenze particolari, usando formati e
strumenti software creati ad hoc per rispondere a dette necessità, e sono dunque basate sulle risorse
e sulle pratiche della comunità coinvolta nel progetto. L’annotazione di un corpus presente in un
dato database presuppone l’esistenza di uno schema di annotazione. Il modo in cui tali schemi
vengono progettati dipende dagli obiettivi su cui si focalizzano gli sviluppatori dello schema e dai
particolari fenomeni linguistici che si intende descrivere. Lo stile caratteristico di ogni autore ha
inoltre notevoli effetti sullo schema.
Una volta creato, un database linguistico può essere utilizzato per una varietà di scopi, sia
all’interno che al di fuori della comunità che lo ha progettato. Adattare il software esistente per la
creazione, l’aggiornamento, l’indicizzazione, la ricerca e la visualizzazione di database sviluppati
da altri generalmente richiede un estensivo processo di riorganizzazione. Lavorare con un insieme
di database richiede dunque numerosi adattamenti di questo tipo.
Vista la grande varietà di strumenti software, database e corpora annotati esistenti, in
considerazione di problemi sopra elencati è nata l’esigenza, a livello internazionale, di sviluppare
una serie di standard che rendano possibile il riutilizzo delle risorse linguistiche di gruppi di ricerca
e progetti diversi. In questa prospettiva sono nati alcuni progetti che condividono sostanzialmente lo
stesso obiettivo.
Nel 1992 un gruppo di ricercatori esperti in problemi e tecnologie legate al linguaggio diede
inizio al progetto ToBi – Tones and Break Indices (vedi http://ling.ohiostate.edu/phonetics/E_ToBI
e
http://julius.ling.ohio-state.edu:80/
Phonetics/ToBI). Scopo del progetto era la definizione di uno standard comune da adottare per la
E-85
trascrizione dei tratti prosodici delle varietà di inglese americano, in modo da permettere la
condivisione dei database raccolti da vari centri di ricerca per il raggiungimento di scopi di ricerca e
obiettivi tecnici diversi.
Il
progetto
DRI
–
Discourse
Resource Initiative (http://www.georgetown.edu/
luperfoy/Discourse-Treebank/dri-home.html) si propone invece di sviluppare uno standard
da impiegare per l’annotazione delle caratteristiche semantico-pragmatiche e discorsive di corpora
diversi. Anche in questo caso, lo scopo del progetto è creare una base per unire le risorse
linguistiche di fonti diverse in modo tale da sostenere e potenziare la ricerca e le applicazioni nel
campo del linguaggio.
In ambito europeo, il progetto MATE – Multilevel Annotation, Tools Engineering
(http://mate.nis.sdu.dk) ricopre un ruolo di importanza fondamentale. Il progetto si propone infatti
di facilitare il riutilizzo delle risorse linguistiche di gruppi di ricerca e progetti diversi affrontando i
problemi legati alla creazione, all'acquisizione e al mantenimento di corpora di dialoghi. Gli
obiettivi sono essenzialmente due: i) sviluppare uno standard per l’annotazione delle risorse
linguistiche, e ii) fornire uno strumento software che renda più efficiente il processo di acquisizione
ed interrogazione dei database. In particolare, MATE si occupa dell’annotazione di corpora di
dialoghi su più livelli, e si concentra su prosodia, morfo-sintassi, coreferenza, atti linguistici,
problemi di comunicazione e interazione tra più livelli. MATE si propone inoltre di integrare i
tentativi di standardizzazione già effettuati negli Stati Uniti, in Europa e in Giappone. Mentre il
lavoro del progetto DRI è essenzialmente focalizzato sull’annotazione di dialoghi in inglese, MATE
prende invece in considerazione corpora di dialoghi in lingue diverse.
Il progetto SI-TAL si colloca nel quadro degli sforzi volti a sviluppare una pratica standard per
l’annotazione delle caratteristiche semantico-pragmatiche e discorsive di corpora di dialoghi, il che
consentirebbe una valutazione obiettiva delle prestazioni dei vari schemi di annotazione già esistenti
e faciliterebbe lo scambio di dati tra i vari gruppi di ricerca. Il presente rapporto si propone di
prendere come punto di partenza il lavoro fatto nell’ambito di MATE e di integralo ed aggiornarlo
sia per quanto riguarda gli schemi in esso già descritti (in modo tale da avere a disposizione uno
stato dell’arte il più aggiornato possibile), sia per quando riguarda le attività nuove.
Il progetto SI-TAL si occupa dell’annotazione di dialoghi persona-persona e di dialoghi
macchina-persona. Per poter essere utilizzata da sistemi per il trattamento di dialoghi in applicazioni
diverse, l’annotazione deve essere definita in modo sufficientemente generale ed eventualmente
deve poter essere specializzata, attraverso lo sviluppo di ulteriori specifiche aggiuntive, per i diversi
domini applicativi. Il soddisfacimento di questi due requisiti consente di fare un passo avanti nella
direzione del riutilizzo dei corpora, riducendo ad esempio il numero delle costose acquisizioni
necessarie per ogni nuova applicazione di un sistema di dialogo parlato.
Il progetto TAL prevede di lavorare su cinque livelli di annotazione: morfosintattico, sintattico,
semantico-concettuale, prosodico e pragmatico.
Lo scopo di questa relazione è fornire lo stato dell’arte degli schemi di annotazione che
coinvolgono il livello pragmatico.
4.2.1 L’annotazione degli atti linguistici
Gli schemi per l’annotazione degli atti linguistici sono stati tutti sviluppati avendo come
fondamento teorico le considerazioni dei filosofi del linguaggio J. L. Austin (1962) e J. Searle
(1969), secondo i quali gli atti linguistici, nella letteratura specifica talvolta chiamati “atti
E-86
illocutivi”, sono gli elementi alla base della comunicazione umana. Un dialogo è diviso in unità
chiamate “turni”, che fanno riferimento ai cambi di parlante. Un turno, a sua volta, è composto da
una serie di enunciati, anche chiamati “segmenti”.
Gli schemi per l’annotazione degli atti linguistici sono impiegati con lo scopo di segnalare le
azioni comunicative sostenute dagli enunciati. Tali annotazioni indicano il ruolo di un dato
enunciato all’interno di un dialogo specifico e rendono più chiare le relazioni tra i vari enunciati.
La maggior parte degli schemi per l’annotazione di atti linguistici sono fino ad oggi stati
sviluppati principalmente per annotare dialoghi “task-oriented”. Con questa denominazione
indichiamo quei dialoghi che prevedono la partecipazione di una o più persone (o di una persona e
di una macchina) che interagiscono e collaborano per raggiungere un determinato obiettivo
prefissato. Il contenuto informativo dai dialoghi orientati al raggiungimento di un dato obiettivo può
essere essenzialmente diviso in a) informazioni che riguardano il compito da svolgere, e b)
informazioni che concernono il processo di comunicazione. Per garantire la generalità e dunque la
maggior flessibilità dello schema, nella scelta delle etichette i due livelli informativi dovrebbero
essere considerati separatamente
4.3
Criteri utilizzati per la descrizione degli schemi
Nella presentazione e descrizione degli schemi di annotazione esistenti verranno presi in
considerazione i seguenti criteri, il cui soddisfacimento è considerato un requisito fondamentale di
ogni buon schema di annotazione:
a) Documentazione (esistenza di un manuale per la codifica)
Gli schemi di annotazione devono essere ben documentati. Per questo motivo è necessaria la
presenza di un manuale di codifica che descriva gli scopi, il dominio e le applicazioni per i quali
lo schema è stato sviluppato.
b) Fenomeni annotati
Per confrontare i diversi schemi di annotazione attualmente esistenti e sviluppare uno standard è
di importanza fondamentale avere a disposizione una lista dei fenomeni annotati da ciascun
singolo schema.
c) Esempi
Per capire meglio il funzionamento dei diversi schemi di annotazione è essenziale avere degli
esempi.
d) Numero degli annotatori
Gli schemi devono essere stati usati da un numero rilevante di annotatori diversi. Ciò è dovuto
al fatto che gli schemi di codifica che sono stati usati esclusivamente da coloro che li hanno
sviluppati tendono ad essere eccessivamente soggettivi e difficili da usare.
e) Numero dei dialoghi/enunciati/segmenti annotati
Per dimostrare i suoi possibili impieghi, lo schema deve essere stato impiegato per annotare un
numero rilevante di dialoghi.
f) Valutazione dello schema
La valutazione dell’indice di accordo tra gli annotatori riflette l’affidabilità dello schema di
annotazione. L’indice κ è usato come unità di misura comune (cfr. Krippendorf 1980).
E-87
Il coefficiente κ è calcolato in base alla seguente formula:
κ=
P( A) − P( E )
1 − P( E )
dove P(A) rappresenta la probabilità che gli annotatori concordino, mentre P(E) sta per la
probabilità che gli annotatori concordino per caso. L’accordo dovuto al caso è calcolato come
n
P( E ) = ∑ pi2
i =1
dove p i rappresenta i casi di accordo reale.
Un parametro importante di cui tenere conto nella valutazione dell’affidabilità di uno schema di
annotazione è il seguente: uno schema con indice di affidabilità pari a κ=0,8 (o valori superiori)
è da considerarsi così affidabile da non richiedere ulteriori miglioramenti, mentre valori di κ
compresi tra 0,67 e 0,8 indicano che lo schema dovrebbe essere migliorato.
Un altro parametro che è bene menzionare è l’indice α (cfr. Krippendorf 1980), che è calcolato
come:
α = 1−
D0
DE
dove
D0 = observed _ disagreeme nts
DE = expected _ disagreeme nts
I valori di α vanno da 1 a –1. α è pari a 1 se i due insiemi di dati concordano completamente; α
è pari a 0 se non ci sono più accordi di quanti si verificherebbero per caso.
g) Obiettivo per il quale è stato generato lo schema di valutazione
Gli schemi di annotazione sono spesso legati al compito o al dominio per il quale sono stati
sviluppati. Questo potrebbe ridurre le loro possibilità di impiego.
h) Linguaggio di codifica
Per poter realizzare dei programmi che traducono uno schema di codifica in un altro schema, è
necessario conoscere il linguaggio di codifica dello schema dato. È inoltre interessante vedere
qual è il linguaggio di codifica maggiormente usato.
j) Esistenza di uno strumento software per l’annotazione
Gli strumenti software per l’annotazione facilitano l’annotazione e quindi aumentano la
probabilità che un dato schema di annotazione venga utilizzato.
k) Possibilità di impiego
Gli schemi di annotazione dovrebbero essere impiegati in sistemi già esistenti in modo da
mostrare le loro possibilità di impiego.
Tutti gli schemi che verranno presi in considerazione verranno valutati seguendo queste linee guida.
E-88
4.4
Elenco degli schemi di annotazione esaminati
Sono stati presi in esame i seguenti schemi di annotazione:
•
Alparon
•
Schema di annotazione dell’Università di Chiba
•
Chat
•
COCONUT
•
Schema di annotazione di Condon e Cech
•
C-STAR
•
DAMSL
•
Dialogos
•
GDA
•
Janus
•
Schema di annotazione di Giovanni Flammia (MIT)
•
LinLin
•
Maptask
•
Schema di annotazione di Christine Nakatani (AT&T, Bell Labs)
•
SLSA
•
Schema di annotazione per il progetto Switchboard SWBD-DAMSL (University of Colorado)
•
Schema di annotazione di David Traum (University of Maryland)
•
Schema di annotazione per il progetto Verbmobil
Alcuni degli schemi che verranno presentati qui di seguito (Alparon, Coconut, C-STAR,
Dialogos e SLSA) contengono anche un certo numero di etichette semantiche, che non verranno
però riportate in quanto non rilevanti ai fini dell’annotazione dei fenomeni del livello pragmatico.
Nella descrizione degli schemi le etichette adottate di volta in volta per annotare i vari fenomeni
verranno riportate in inglese, poiché la loro traduzione potrebbe risultare fuorviante e generare
confusione.
4.4.1 Alparon
(Delft University of Technology)
4.4.1.1 Documentazione:
ftp://ftp.twi.tudelft.nl/TWI/publications/tech-reports/1996/DUT-TWI-96-137.ps.gz
Autori: R.J. van Vark, J.P.M. de Vreught, L.J.M. Rothkrantz
Titolo: Analysing OVR dialogue coding scheme 1.0; Report 96-137
E-89
4.4.1.2 Fenomeni annotati:
•
•
Phases
•
Greeting (G)
•
Query (Q)
•
Pause (P)
•
Information (I)
•
Subquery (S)
•
Goodbye (B)
Moves (Dialogue Acts)
•
Greeting (Gre)
•
Acknowledgement (ack)
•
Alignment (Ali)
•
Bye (Bye)
•
Statement (Sta)
•
Check (Che)
•
Clarification (Cla)
•
Question (Que)
•
Pause (Pau)
•
Reconfirmation (Rec)
•
Other (Oth)
4.4.1.3 Esempi
2: goedemorgen reisinformatie
(good morning travel information)
1: goedemorgen [achternaam] kunt u
mij zeggen hoe laat de[uh] bus van
Lochem naar Deventer toe gaat
(good morning [last name] can you tell
me what time the[uh] bus departs from
Lochem to Deventer)
2: hoe laat ongeveer zou u mee willen
(how late approximately would you
like to go)
1: [uh] rond een uur of negen
([uh] about nine o’clock)
Gre(G,[],[])
Gre(G,[Per(Nam)],[]),
Que(Q,[Tt(DaS([Unspecified])]),
RI([T
rT([Bus_Tram(0)])]),Loc([DeP([C
ity(
1)]),ArP([City(2)])])],[])
Que(S,[Tm([DeT([Unspecified])])
],[])
Sta(Q,[Tm([DeT([About(3)])])].[
])
E-90
2: oke
(ok)
2: negen uur twee mevrouw buslijn
zesenvijftig
(two past nine madam bus line fiftysix)
Ack(Q,[Ack([Pos])],[])
Sta(1,[Tm([DeT([Exact(4)])]),
RI([TrT([Bus_Tram(5)])])],[])
Ali(B,[Ann],[],Bye(B,[Bye([Tha]
)],[])
1: oke dank u wel
(ok thank you)
Bye(B,[Bye([ReG])],[])
2: tot uw dienst
(at your service)
1: ja hoor dag
(yes fine bye)
Bye(B,[Bye([ReG,Goo])],[])
Bye(B,[Bye([Goo])],[])
2: goodemorgen
(good morning)
4.4.1.4 Numero degli annotatori:
3 (tutti informatici).
4.4.1.5 Numero dei dialoghi annotati:
circa 500 (in olandese), con 12000 turni e 16000 segmenti.
4.4.1.6 Valutazione dello schema:
ftp://ftp.kbs.twi.tudelft.nl/pub/alparon/publications/1997/L.J.M.Rothkrantz-SALT-97.ps.gz
Non sono state pubblicate valutazioni che utilizzano l’indice κ. Lo schema è però stato impiegato
nel sistema VIOS per dialoghi che riguardano il sistema di trasporti pubblici nell’ambito di
Netland.Communication.
4.4.1.7 Obiettivo per il quale è stato generato lo schema di annotazione:
Lo schema è stato progettato nell’ambito del dominio della raccolta di informazioni riguardanti i
servizi offerti dalla rete di trasporti pubblici olandese.
4.4.1.8 Linguaggio di codifica:
Gli atti linguistici sono termini Prolog con alcuni segni di punteggiatura extra in modo tale da
creare la lista degli atti linguistici e segnare quale degli agenti stava parlando.
4.4.1.9 Esistenza di uno strumento software per l’annotazione:
Codificatore OVR:
E-91
•
strumento software per la codifica manuale
•
linguaggio di implementazione: tcl/tk
4.4.1.10
Possibilità di impiego:
Lo schema di annotazione Alparon è impiegato in VIOS, il prototipo ASP (Automated Speech
Processing) dell’OVR (Openbaar Vervoer Reiseinformatie, Public Transport Travel Information).
E-92
4.4.2 Schema di annotazione dell’Università di Chiba
(Chiba University)
Anziché avere un solo schema di annotazione, lo schema di annotazione Chiba comprende tre
schemi che si distinguono per il tipo di unità etichettate:
•
etichettatura dei markers discorsivi per parola o sintagma (A)
•
etichettatura delle unità di enunciato per un enunciato (frase) (B), e
•
etichettature delle unità di discorso per i cosiddetti segmenti di discorso (C).
Questi diversi schemi vengono applicati ad ogni task.
Il manuale di codifica sarà presto disponibile su Internet, ma è scritto in giapponese. Il profilo
del lavoro è stato riportato in occasione della First International Conference on Language Resources
and Evaluation tenutasi in Spagna nel maggio 1998.
“Standardising Annotation Schemes for Japanese Discourse”, A. Ichikawa, et al.
•
conventional: opening, closing
•
initiation: request, suggest, persuasion, propose, confirm, yes-no question, wh-question,
promise, demand, inform, other assertion, other ititiation
•
response: positive, negative, answer, hold, other response
•
follow-up: understanding
•
response with initiation: l’elemento di questa categoria può essere rappresentato come
response/initiation.
4.4.2.3 Esempi:
66 U: hai, etto, shinkanseN waNji hatsu desu ka.
67 (I) (What’s the departure time of the bullet train?)
68 S: e, jyuu nana ji haN ni natte orimasu.
69 (R) (It’s 17:30)
70 U: hai.
71 (F) (I see)
E-93
4.4.2.4 Numero degli annotatori
10 annotatori.
Task
Dialoghi
Enunciati
14
509
Indicazioni stradali
3
131
Vendite al telefono
4
277
Informazioni
turistiche
1
68
Gestione di
appuntamenti
Indice alpha
A
B
C
0,577
0,680
0,612
In Ichikawa, A., Araki, M., Horiuchi, Y. et al., 1999, Evaluation of Annotation Schemes for
Japanese Discourse, viene indicata un’ulteriore valutazione dalla quale risulta un indice k pari a
0.64.
Indicazioni stradali, programmazione, vendite al telefono, informazioni turistiche.
Il linguaggio di codifica si presenta come mostrato qui di seguito (variante di SGML):
<Dialog>
<Utt Id=0000 Utterance_unit=open_dialogue Speaker=“S”
Topic=scheduling Depth_of_segment=2>
[Well] <then> please start.
I marker discorsivi sono etichettati nella trascrizione. Le unità di enunciato e di discorso sono
descritte secondo i canoni SGML.
E-94
Viene impiegata una variante di DAT (DRI). Include la predizione dell’etichetta dell’unità di
enunciato (l’accuratezza della predizione è di circa 70% in test aperto).
4.4.2.10
Non esistono informazioni disponibili in merito.
E-95
4.4.3
Chat
(Carnegie Mellon University, Dipartimento di Psicologia)
http://poppy.psy.cmu.edu/childes/index.html
http://atila-www.uia.ac.be/childes
Autore: Brian MacWhinney
Titolo: The CHILDES Project: Tools for Analysing Talk
Speech act codes:
•
Interchange type categories (“x”):
• CMO [CoMfOrting]: per confortare ed esprimere comprensione in caso di avversità
• DCA [Discussing Clarification of Action]: per discutere i chiarimenti di atti comunicativi
non verbali dell’ascoltatore
• DCC [Discussing Clarification of Communication]: per discutere i chiarimenti riguardanti
comunicazione verbale ambigua messa in atto dall’ascoltatore o conferme della sua
comprensione da parte del parlante
• DFW [Discussing the Fantasy World]: per intrattenere una conversazione nell’ambito di un
gioco di fantasia
• DHA [Directing Hearer’s Attention]: per ottenere il focus comune di attenzione indirizzando
l’attenzione dell’ascoltatore verso oggetti, persone ed eventi facenti parte dell’ambiente
circostante
• DHS [Discussing Hearer’s Sentiments]: per intrattenere una conversazione riguardante i
pensieri e i sentimenti dell’ascoltatore
• DJF [Discussing a Joint Focus of attention]: per intrattenere una conversazione riguardante
un elemento dell’ambiente circostante condiviso da entrambi i partecipante alla
conversazione, ad es. oggetti, persone, azioni in corso di svolgimento (sia dell’ascoltatore
che del parlante), eventi in corso di svolgimento
• DNP [Discussing the Non Present]: per intrattenere una conversazione su argomenti che non
sono osservabili nell’ambiente circostante, ad es. azioni passate o future, oggetti e persone
lontani, questioni astratte (escludendo le conversazioni che riguardano stati d’animo)
• DRE [Discussing a Recent Event]: per intrattenere una conversazione su azioni ed eventi
verificatisi da poco
E-96
• DRP [Discussing the Related-to-Present]: per discutere attributi non osservabili di oggetti o
persone presenti nell’ambiente circostante o per discutere eventi passati o futuri legati a detti
referenti
• DSS [Discussing Speaker’s Sentiments]: per intrattenere una conversazione a proposito dei
pensieri e sentimenti del parlante
• MRK [MaRKing]: per esprimere sentimenti socialmente attesi in occasioni specifiche, come
ad es. ringraziamenti, scuse, o per contrassegnare un dato evento
• NCS [Negotiate Copresence and Separation]: per gestire la transazione
• NFA [Negotiating an Activity in the Future]: per negoziare azioni ed attività nel lontano
futuro
• NIA [Negotiating the Immediate Activity]: per negoziare l’iniziazione, continuazione, fine
ed interruzione di azioni o attività; per indirizzare le azioni dell’ascoltatore e del parlante;
per distribuire ruoli, mosse e turni in attività comuni
• NIN [Non INteractive speech]: il parlante parla da solo o produce frasi che sono chiaramente
non indirizzate all’ascoltatore presente
• NMA [Negotiate Mutual Attention]: per stabilire l’attenzione, la prossimità o il ritiro
comune
• PRO [PeRfOrming verbal moves]: per effettuare mosse in un gioco o altra attività
pronunciando l’appropriata forma verbale
• PSS [negotiating PoSSession of objects]: per determinare o discutere chi è il possessore di
un oggetto
• SAT [Showing Attentiveness]: per dimostrare che il parlante sta prestando attenzione
all’ascoltatore
• TXT [read written TeXT]: per leggere ad alta voce o recitare un testo scritto
• OOO enunciati non intelligibili
• YYY enunciati non interpretabili
•
Categories of Illocutionary Force (“i”)
• Directives:
•
AC [Answer Calls]: per mostrare attenzione nei confronti della comunicazione
•
AD acconsentire a svolgere l’azione richiesta o proposta dall’altra persona
•
AL acconsentire a fare qualcosa per l’ultima volta
•
CL richiamare l’attenzione dell’ascoltatore chiamandolo per nome o con esclamazioni
sostitutive
E-97
•
CS [Contro-Suggerimento]: un rifiuto indiretto
•
DR sfidare o incitare l’ascoltatore a svolgere una data azione
•
GI [Give In]: accettare le insistenze o i rifiuti dell’altra persona
•
GR [Give Reason]: addurre motivazioni, giustificare la richiesta di un’azione, un rifiuto
o una proibizione
•
RD rifiutare di svolgere l’azione richiesta o proposta dall’altro
•
RP richiedere, proporre o suggerire un’azione all’ascoltatore o ad ascoltatore e parlante
•
RQ domanda o suggerimento si/no a proposito dei desideri ed intenzioni dell’ascoltatore
•
SS segnale per iniziare un’azione, come ad es. correre o far rotolare una palla
•
WD [Warn of Danger]: segnalazione di perico
• Speech Elicitations
•
CX [Complete teXt]: completare il testo
•
EA incoraggiare la produzione di suoni onomatopeici o di versi di animali
•
EI incoraggiare l’imitazione di una parola o di una frase
•
EC incoraggiare a completare una parola o una frase
•
EX incoraggiare a completare un testo imparato a memoria
•
RT ripetere o imitare le frasi pronunciate da altri
•
SC completare affermazioni o altre frasi
• Commitments
•
FP chiedere il permesso di svolgere un’azione
•
PD promettere
•
PF proibire/vietare/contestare lo svolgimento di un’azione da parte dell’ascoltatore
•
SI esprimere l’intenzione di svolgere un’azione, descrivere l’azione che si sta svolgendo
•
TD minacciare di fare qualcosa
• Declarations
•
CD creare un nuovo stato di cose con una dichiarazione
•
DP dichiarare qc. riguardante la realtà fittizia/di gioco
E-98
•
ND essere in disaccordo con una dichiarazione
•
YD concordare con una dichiarazione
• Markings
•
CM commiserare, esprimere compassione/comprensione per il dolore dell’ascoltatore
•
EM esclamazione di dolore
•
EN esprimere un’emozione positiva
•
ES esprimere sorpresa
•
MK segnalare lo svolgimento di un dato evento (ringraziare, salutare, scusarsi,
congratularsi ecc.)
•
TO segnalare il trasferimento di un dato oggetto al parlante
•
XA segnalare attenzione nei confronti dell’ascoltatore
• Statements
•
AP concordare con le proposte espresse dal parlante precedente
•
CN contare
•
DW essere in disaccordo con le proposte fatte dal parlante precedente
•
ST affermare qualcosa
•
WS esprimere un desiderio
• Questions & Answers
•
AQ domanda aggravate, espressione di disapprovazione effettuata riformulando una
domanda
•
AA risposta affermative a una domanda si/no
•
AN risposta negativa a una domanda si/no
•
EQ domanda aperta
•
NA risposta intenzionalmente non soddisfacente
•
QA rispondere a una domanda con una domanda wh-
•
QN fare una domanda wh-
•
RA rifiutarsi di rispondere
•
SA risposta a una domanda wh- con un’affermazione
E-99
•
TA risposta ad una domanda ad alternativa limitata
•
TQ fare una domanda ad alternativa limitata
•
YQ fare una domanda si/no
• Performances
•
PR effettuare un’azione verbale in un gioco
•
TX leggere ad alta voce o recitare un testo
• Evaluations
•
AB approvare un comportamento appropriato. Esprimere una valutazione positiva
riguardante un’azione del parlante o dell’ascoltatore
•
CR criticare o segnalare un errore con un atto non verbale
•
DS disapprovare un comportamento errato. Esprimere una valutazione negativa
riguardante un comportamento inappropriato del parlante o dell’ascoltatore
•
ED esclamazione di disapprovazione
•
ET esclamazione di sorpresa o entusiasmo, espressione di entusiasmo per un’azione
dell’ascoltatore
•
PM lode per un atto motorio, ad es. per un comportamento non verbale
• Demands for clarification
•
RR chiedere di ripetere la frase
•
Editing di testo
•
CT correggere, fornire una forma verbale corretta al posto di una sbagliata
• Vocalizations
•
YY pronunciare un suono simile ad una parola senza una funzione precisa
•
00 vocalizzazione non intelligibile
4.4.3.3 Esempi:
*MOT:
are you okay?
%spa:
$x:dhs $i:yq
E-100
Il sistema CHAT è uno standard reale per la trascrizione e la codifica del linguaggio infantile in
un certo numero di lingue europee e non europee. Questo significa che il sistema CHAT è stato
impiegato da un gran numero di annotatori per scopi diversi, in modo tale che risulta difficile
indicare il numero esatto degli annotatori. La maggior parte degli annotatori erano comunque
linguisti.
Un numero enorme di dialoghi è stato annotato con il sistema CHAT. Tale numero supera
l’ammontare di dialoghi disponibili nel database, poiché molti progetti che si occupano di
linguaggio infantile fanno uso di CHAT senza contribuire al database generale di CHILDES. Il
database di CHILDES riconosciuto a livello internazionale include trascrizioni provenienti da oltre
quaranta grandi progetti in inglese e dati aggiuntivi provenienti da 19 altre lingue (portoghese
brasiliano, cinese mandarino, cinese cantonese, danese, olandese, francese, tedesco, greco, ebraico,
ungherese, italiano, giapponese, mambila, polacco, russo, spagnolo, svedese, tamil, turco e ucraino).
Il database comprende attualmente 160 milioni di caratteri (160 MB).
Dato il suo impiego a livello mondiale, CHAT viene costantemente valutato ed aggiornato in
modo da adattarlo alle esigenze di lingue ed utenti diversi. Non esistono comunque valutazioni
statistiche e quantitative del suo livello di affidabilità.
4.4.3.7 Obiettivo per il quale è stato progettato:
Analisi del linguaggio infantile.
Formato proprio di CHAT.
Il sistema CHILDES contiene molti strumenti software separati ma integrati, suddivisi in due
maggiori strumenti. Il primo strumento software è un editor orientato a trattare files ASCII (CED,
Childes Editor), progettato per facilitare l’editing dei files di CHAT e per controllare l’accuratezza
delle trascrizioni. Il secondo strumento software, attualmente un gruppo di molti strumenti minori, è
un insieme di programmi per computer chiamato CLAN (Child Language Analysis) che può essere
impiegato per analisi di diversi tipi.
I seguenti manuali spiegano e mostrano il funzionamento del sistema:
MacWhinney, B. (1995). The CHILDES project: Tools for analyzing talk, Hillsdale, NJ:
Erlbaum
Sokolov, J. e C. Snow (Eds.). (1994). Handbook of research in language development using
CHILDES. Hillsdale, NJ; Erlbaum.
E-101
4.4.3.10
Usato nel progetto CHILDES.
E-102
4.4.4
COCONUT
(The University of Pittsburgh Intelligent Systems Program; The Natural Language Group at SRI
International)
http://www.isp.pitt.edu/~intgen/research-papers.html
Autore: Barbara Di Eugenio, Pamela W. Jordan, Liina Pylkkänen
Titolo: The COCONUT project: dialogue annotation manual (draft)
•
Informative level
•
•
Task
•
EvaluatePlan
•
GameProcedure
Task management
•
•
Strategize Action
•
Communication management
•
Other Level
Forward-Communication Function
•
•
Statement
•
Assert
•
Reassert
•
Other-Statement
Influence-on-Listener
•
Open-Option
•
Directive
•
Info-Request
•
•
•
Action-direction
Influence-on-speaker
•
Offer
•
Commit
Other-forward-function
•
ConventionalOpening
E-103
•
•
ConventionalClosing
•
ExplicitPerformative
•
Exclamation
Backward Comunicative Function
•
Initiate
•
Agreement
•
•
•
Accept
•
Accept-Part
•
Maybe
•
Reject-Part
•
Reject
•
Hold
•
ClarificationRequest
Understanding
•
Signal-non-understanding
•
Signal-understanding
•
Acknowledge
•
RepeatRephrase
•
(Completion)
•
CorrectMisspeaking
•
CorrectAssumption
Answer
•
Information Relations
•
Coreference / Set Relations
•
Segment Tag
•
Fragment
4.4.4.3 Esempi:
S1: (a) so we shold move to the engine at Avon engine E to
S2: (b) engine E one
CorrMisspeak(a)
S1: (c) E one to Bath
Accept(b)
E-104
3 per lo sviluppo, ma solo due per l’annotazione vera e propria.
Sono stati annotati 16 dialoghi (ca. 800 enunciati), di cui 9 sono stati annotati due volte. Tutti i
dialoghi sono in inglese.
Disponibile al sito:
http://www.isp.pitt.edu/~intgen/research-papers.html
Acquisto di mobili per il salotto e il soggiorno di una casa.
Una variante di DAMSL.
È stato utilizzato il software Nota Bene (Nb) di Giovanni Flammia
•
manuale
•
linguaggio di implementazione: Tcl/Tk (Versione Tcl 7.4 e Versione Tk 4.0 o superiore)
4.4.4.10
Sistema COCONUT.
E-105
4.4.5 Schema di annotazione di Condon e Cech
(Discourse Intervention Project, University of Southwestern Louisiana)
ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/condon
Autore: Sherri Condon, Claude Cech
Titolo: Manual for Coding Decision-Making Interactions
Top-Level Functions:
•
Move (MOVE)
•
Response (RESP)
•
Other (OTHR)
Ogni enunciato deve essere associato ad una sola funzione appartenente ad una delle seguenti
categorie:
•
Move Functions:
• SA Suggest Action (for the decision task) locations, activities and orders for them
• RA Request Action (requires immediate action)
• RV Request Validation/Verification/Acknowledgement (of some statement)
• RI Request Information (Information Questions)
• ER Elaborates, Explains, Supports, Repeats previous utterance (Relevant comment)
• NC No Clear MOVE function
•
Response Functions:
• AS Agrees with Suggestion
• DS Disagrees with Suggestion, Refuses to Comply with Request
• CR Complies with Request
• AO Acknowledges Only
• NC No Clear RESPONSE function
•
Other functions:
• DM Discourse Marker
• ML Metalanguage
• OS Orientation of Suggestion
E-106
• PI Requests, Offers, Refers to, Evaluates Personal Information
• JE Jokes, Exaggerates
• NC No Clear OTHER function
4.4.5.3 Esempi:
•
Funzioni di spostamento:
SA: Let’s go to New Orleans
RA: Write that down
RV: right?, you know?, agreed?, To New Orleans? (checking questions)
RI: Where do you want to go?, How long does it take to drive to New Orleans?
ER: This is fun, I love New Orleans
NC: Fillers
•
Funzioni di risposta:
AS: ok, good idea, we should have a great time there
DS: no, sounds boring, that is too much in one day
CR: ok, it takes about an hour to drive to Baton Rouge
AO: me, too, really, I know
•
Altre funzioni:
DM: so, well, let’s see
ML: Let’s decide where the party will be first, We’re finished
OS: To go to New Orleans, let’s hire a jet, In New Orleans we can go on a
riverboat
PI: Were you in the service?, Have you ever been there?, I go there all the time
JE: yeah/mall warriors, party on!
Cinque studenti, tutti non linguisti.
Il primo corpus (schema di codifica originario) contiene 4141 enunciati provenienti da 16
interazioni faccia a faccia e 918 enunciati provenienti da 16 interazioni mediate dal computer. Il
nuovo schema è stato usato per annotare 8 interazioni faccia a faccia e 60 interazioni sincroniche
mediate dal computer. Inoltre si sta lavorando sull’annotazione di 20 interazioni diacroniche (via email) mediate dal computer. L’obiettivo di queste interazioni era progettare la cerimonia per gli
MTV video awards.
E-107
4.4.5.6 Valutazioni dello schema:
Non è ancora stata effettuata alcuna valutazione. Il sistema è però stato testato al workshop
sull’annotazione di dialoghi tenutosi al Penn, durante il quale alcuni linguisti computazionali, il cui
training consisteva nella semplice lettura del manuale di annotazione, hanno lavorato su una serie di
dati Verbmobil ed hanno raggiunto un accordo perfetto in 33 enunciati su 36.
Prendere delle decisioni.
Linguaggio di codifica Nb. Non è completamente compatibile al formato SGML, ma con Nb
viene distribuito un programma che converte i file annotati in Nb in file standard SGML.
Interfaccia Nb Tcl/Tk di G. Flammia.
4.4.5.10
Usato nel Discourse Processing Project.
E-108
4.4.6 C-STAR
(C-STAR Consortium)
Disponibile via ftp.cs.cmu.edu in project/enthusiast/cstar/current/manual.ps
Autore: non indicato
Titolo: Template translation and Dialogue Act Annotation
4.4.6.2 Lista dei fenomeni annotati:
Circa 25 atti linguistici.
Circa 500 azioni specifiche di dominio.
Gli atti linguistici sono composizionali. Un atto linguistico è composto da tre livelli di
rappresentazione che indicano aspetti diversi dell’enunciato: l’atto linguistico (ad es. quando il
parlante effettua l’atto di accettare, dare un’informazione ecc.), il concetto che donota il focus di
informazione dell’enunciato in questione (ad es. quando il parlante fornisce informazioni a
proposito della disponibilità di camere, o riguardanti un viaggio, un volo ecc.) e gli argomenti che
denotano i contenuti specifici dell’enunciato (ad es. quando il parlante dà informazioni a proposito
di camere singole o doppie, uno o due voli ecc.). Gli argomenti sono ereditati sia dall’atto
linguistico che dai concetti.
Dialogue acts: accept, acknowledge, affirm, apologize, closing, give-information, greeting,
introduce-self, introduce-topic, negate, offer, please-wait, reject, request-action, request-affirmation,
request-information, request-suggestion, request-verification, suggest, suggest-action, thank, verify;
4.4.6.3 Esempi:
The week of the twelfth we have both singles and doubles available.
a:give-information+availability+room
time=(week, md12))
(room-type=(single
4.4.6.4 Numero degli annotatori;
5 (linguisti, linguisti computazionali, informatici).
Inglese, CMU
Numero di
dialoghi
Numero di
turni
Numero di
segmenti
31
1605
2523
E-109
&
double),
Coreano, con
traduzioni in
inglese, ETRI
(Corea)
70
453
1140
Italiano, con
traduzioni in
inglese, IRST
(Italia)
5
132
233
Giapponese, con
traduzioni in
inglese, ATR
(Giappone)
124
4424
5887
Totale
230
6614
9783
L’accordo tra gli annotatori non è stato testato.
Lo schema è stato sviluppato per dialoghi tra due agenti aventi come dominio la pianificazione di
viaggi. In tali dialoghi un agente di viaggio e un cliente sono impegnati in diversi scenari di viaggio
come ad es. prenotazione di voli/hotel, vendita di biglietti, domande sui mezzi di trasporto, richiesta
di informazioni a proposito di tour e visite guidate ecc. Lo schema per l’annotazione degli atti
linguistici è stato progettato per l’analisi di discorso parlato. L’attuale insieme di atti linguistici è
principalmente basato su dialoghi riguardanti la prenotazione di hotel, ma lo schema è
sufficientemente generale da poter essere esteso all’analisi di altri domini.
Formato di intercambio.
Non esiste uno strumento software per l’annotazione.
4.4.6.10
Usato nel sistema dei membri del consorzio.
E-110
4.4.7 DAMSL
(Discourse Representation Initiative)
http://www.cs.rochester.edu:80/research/trains/annotation
Autori: James Allen, Mark Core
Titolo: Draft of DAMSL: Dialog Act Markup in Several Layers
•
•
•
Communicative Status (registra se l’enunciato è intelligibile e se è stato completato con
successo)
•
Uninterpretable
•
Abandoned
•
Self-talk
Information Level (caratterizzazione del contenuto semantico dell’enunciato)
•
Task
•
Task-management
•
Communication-management
•
Other-level
Forward Looking Function (come l’enunciato in esame influenza i pensieri e le azioni dei
partecipanti e quale effetto ha sul discorso)
•
•
Statement
•
Assert
•
Reassert
•
Other-statement
Influencing-addressee-future-action
•
Suggestion
•
•
•
Action-directive
Info-Request
•
•
Weak Suggest or Negative Suggest
Check
Committing-speaker-future-action
•
Offer
•
Commit
E-111
•
•
Conventional
•
Opening
•
Closing
•
Explicit-performative
•
Exclamation
•
Backward Looking Function
•
•
Agreement
•
Accept
•
Accept-part
•
Maybe
•
Reject-part
•
Reject
•
Hold
Understanding
•
Backchanneling
•
Signal-non-understanding
•
Signal-understanding
•
•
•
•
Acknowledge
•
Repeat-rephrase
•
Completion
Correct-misspeaking
Answer
Information-relation
4.4.7.3 Esempi:
utt1:
u: mm <click> okay Reassert
utt2:
four hours from Avon to Bath Action-directive
utt3:
and then I guess attach that to the boxcar to Corning
utt4:
it’s four hours and
utt5:
how long Info-request Abandoned
utt6:
it is two hours from Bath to Corning Info-request
E-112
4.4.7.4 Numero di annotatori:
A Rochester, solo due dei 18 dialoghi DAMSL annotati sono stati annotati da studenti di
linguistica. Gli altri 16 sono stati annotati da uno studente di informatica e uno studente di
ingegneria.
4.4.7.5 Numero di dialoghi annotati:
18 (1037 turni, 1524 enunciati) – tutti in inglese.
• Funzioni in avanti
• Affermazione: k = 0,66
• Influenza sulle azioni future del destinatario: k = 0,70
• Impegno che coinvolge le azioni future del parlante: k = 0,15
• Altre funzioni in avanti: k = 0,48
•
Funzioni all’indietro
• Agreement: k = 0,42
• Understanding: k = 0,57
• Answer: k = 0,76
• Respnse: k = 0,77
Questo schema di annotazione è stato definito per fornire una struttura di alto livello adatta ad
annotare una serie di dialoghi per molti scopi diversi.
DAMSL (una variante di SGML).
È stato utilizzato il tool dat (dialog annotation tool)
•
manuale
•
linguaggio di implementazione: Perl 5.004_04, Perl Tk 402.003
E-113
4.4.7.10
COCONUT, SWBD-DAMSL, CLARIFY, VERBMOBIL.
Questo schema di annotazione è anche stato utilizzato da CSELT per l’annotazione di alcuni
dialoghi del sistema di dialogo DIALOGOS (dominio: informazioni orari dei voli).
E-114
4.4.8
Dialogos
(CSELT – Centro Studi e Laboratori Telecomunicazioni S.p.A.)
Autori: Danieli, Morena e Carletti, Laura
Titolo: Information about the coding of the Italian human-machine dialogues
•
Analisi sintattico-semantica dei concetti generati dal parser utilizzati a livello discorsivo
•
•
•
CONFERMA – il parlante conferma o nega i parametri proposti nella domanda generata dal
sistema
•
CONF-SI
•
CONF-NO
Contesti di dialogo
•
STANDARD – indica il contesto normale di dialogo (c’è corrispondenza tra le aspettative
del sistema e il comportamento dell’utente)
•
DIAL_WAIT – indica gli atti fatici (sia l’utente che il sistema di dialogo sono in attesa che
qualche altro modulo del sistema compia una determinata azione, ad es. il collegamento con
il database)
•
NOT-UND – il sistema non è in grado di capire uno o più turni precedenti dell’utente
•
NO-CONT – la risposta dell’utente era fuori dal focus, il che può essere il risultato di i) una
mancata comprensione o ii) un turno di recovery messo in atto dal parlante
•
NEW-REQ – i parametri forniti dall’utente non sono sufficienti per accedere al database; il
sistema chiede quindi al parlante di fornire altri parametri
•
ISOL-REC – dopo aver attraversato parecchi turni di NOT-UND e NO-CONT, il sistema di
dialogo chiede all’utente di fornire il valore di un dato parametro pronunciando una parola
alla volta, in modo da correggere i ripetuti errori di riconoscimento
•
CLOSE – chiusura del dialogo da parte dell’utente o da parte del sistema
•
SYST-ERR – interruzione del dialogo dovuta a fenomeni irreparabili di mancata
comprensione
Atti linguistici
•
REQ – richiesta di uno o più parametri da parte del sistema (es. “Mi dica da dove parte e
dove vuole andare”)
•
VER – verifica del valore di un parametro (es. “Parte intorno alle cinque?”)
•
REQ#VER – combinazione dei due atti linguistici precedenti (es. “Da dove parte per
andare a Milano?”)
E-115
•
SELECT – seleziona;
è usato dal sistema per chiedere all’utente di chiarire un
parametro ambiguo (es. “Parte da Roma o arriva a Roma?”)
•
INFO – il sistema usa questo atto linguistico per generare le risposte che riguardano le
informazioni acquisite dal database
4.4.8.3 Esempi:
#Date: 990615 21:51:04
#File: 990615/001/0024p0.pri
#C_Id: 0003990615214122 002
#Tipo: MOA 0001 1
######################################################
PATTERN: <DA_5>
T1S> [0] [INTRO, REQ,C_DEP,C_ARR] Il Servizio è automatico e fornisce
gli orari dei treni che collegano le principali città italiane ed alcune
città europee. Risponda alle domande del sistema, dopo il segnale acustico:
Ora, mi dica da dove parte e dove vuole andare.
<Utt Id=T2Uf> parto da firenze voglio andare a parigi &REQ,C_DEP,C_ARR
T2Uf> [V:0 LM:9] @ parto da firenze e voglio andare a parigi
-->C_DEP=FIRENZE C_ARR=PARIGI
PATTERN: <DA_78 | Firenze | Parigi>
T3S> [21] [STANDARD, VER,C_DEP,C_ARR] Vuole andare da Firenze a Parigi?
<Utt Id=T4Uf> si &VER,C_DEP,C_ARR
T4Uf> [V:0 LM:2] @ si
--> CONFERMA=SI
PATTERN: <DA_169 | <rd1 | domani>>
T5S> [28] [STANDARD, VER,R_DAY] Parte domani?
<Utt Id=T6Uf> si &VER,R_DAY
T6Uf> [V:0 LM:6] @ si
--> CONFERMA=SI
PATTERN: <DA_198>
T7S> [33] [DIAL_WAIT,PHA] Attenda:
PATTERN: <DA_21>
T8S> [34] [STANDARD, REQ,SP_TIME] A che ora desidera partire?
<Utt Id=T9Uf> undici e trenta &REQ,SP_TIME
T9Uf> [V:0 LM:11] @ undici e trenta
-->HR=UNDICI MIN=TRENTA
PATTERN: <DA_192 | <hr14 | undici | trenta>>
T10S> [40] [STANDARD, VER,HOUR] Parte intorno alle undici e trenta?
<Utt Id=T11Uf> si &VER,HOUR
T11Uf> [V:0 LM:4] @ si
-->CONFERMA=SI
PATTERN: <DA_198>
T12S> [47] [DIAL_WAIT, PHA] Attenda:
PATTERN: <FLAG5>
T13S> [49] [SPEC] Attenda in linea!
E-116
##### Total time: 51 N_TURNI: 10 n.utt:5 n.pariso:0
#####ESITO:SUCC TOT_COLL:1 N_COLL:0 N_NOTE:0 DEP:880.0 ARR:2748.0
##############################################
<Dial ESITO=SUCC PF=ALL NS=YES>
4 annotatori.
94 dialoghi del corpus DIALOGOS-EUROSPEECH97 e 210 dialoghi del corpus FSINFORMACONT.
Non è ancora stata effettuata alcuna valutazione.
•
Informazione sugli orari dei treni
•
Informazioni sugli orari dei voli.
•
Stringhe ASCII per l’annotazione.
•
SGML per la valutazione dei dialoghi.
Una parte dell’annotazione è fatta in modo automatico dal sistema, un’altra è manuale e può
essere effettuata con un comune editor.
4.4.8.10
Questo schema di annotazione è utilizzato nel sistema di dialogo DIALOGOS sviluppato da
CSELT.
E-117
4.4.9 GDA (Global Document Annotation)
(Hasida Koiti, Electrotechnical Laboratory)
http://www.etl.go.jp/etl/nl/GDA/tagset.html
L’insieme di etichette GDA è stato pensato per annotare testi elettronici scritti su livelli diversi.
Le etichette che vengono impiegate per codificare gli atti linguistici sono le seguenti:
• Pragmatic relation
• Understand und
• Not understand nun
• Reply rpl
• Reply wh- rpw
• Reply YES rpy
• Reply NO rpn
• Accept acc
• Reject rej
• Hold hld
• Communicative Functions (forward-looking functions and backward-looking functions)
• Statement stt
• Order ord
• Request req
• Offer ofr
• Commitment or promise cmt
• YES/NO Query qyn
• WH Query qw
• Convention, including greetings cnv
• Summon smn
• Exclamation exc
• Abuse abu
• Blame blm
E-118
4.4.9.3 Esempi
Non sono documentati.
4.4.9.4 Numero degli annotatori
Non esiste documentazione in merito.
4.4.9.5 Numero dei dialoghi annotati
4.4.9.6 Valutazione dello schema
Lo scopo di GDA è quello di rendere automaticamente riconoscibile la struttura semantica e
pragmatica dei testi elettronici. L’insieme di etichette è sviluppato in modo tale da poter essere
facilmente integrato negli insiemi di etichette TEI, EAGLES e HTML. Alcune etichette sono
mutuate direttamente dai suddetti linguaggi di codifica. Nel caso in cui una etichetta venga definita
in due o più linguaggi di codifica, si preferisce adottare quella in HTML, visto che ci si aspetta che
le etichette di GDA vengano impiegate prevalentemente in file HTML.
GDA non è limitato ad alcun tipo di applicazione di elaborazione del linguaggio naturale o di
intelligenza artificiale, ma cerca di comprendere il maggior numero possibile di quegli aspetti del
linguaggio che possono essere utili per la traduzione, la ricerca di informazioni, il riassunto, la
risposta a domande, lo studio di un dato caso, la presentazione ecc.
Benché gli esempi si riferiscano principalmente all’inglese, l’insieme di etichette GDA non è
legato ad alcuna lingua in particolare.
L’insieme di etichette GDA non è legato ad alcuna teoria linguistica. Esso codifica le strutture
semantiche e pragmatiche dei documenti conservando una posizione per così dire “neutrale”, al di
sopra delle varie teorie linguistiche.
Poiché questo schema è stato derivato da DAMSL, il linguaggio di codifica usato è
probabilmente SGML.
4.4.9.9 Esistenza di uno strumento software per l’annotazione
E-119
4.4.9.10
Possibilità di impiego
Non esiste documentazione in merito
E-120
4.4.10 Janus
(Carnegie Mellon University, Language Technology Institute, Universität Karlsruhe)
4.4.10.1
Documentazione:
Non esiste un manuale di codifica disponibile al pubblico.
4.4.10.2
Fenomeni annotati:
Atti linguistici composizionali. Si veda l’elenco dei fenomeni annotati da C-STAR (§ 2.6.2).
4.4.10.3
Esempi:
[nicety] (Hello Dr. Noah)
[nicety] (Hi Tor)
[suggest-meeting] (let’s set up a meeting for a couple of hours)
[temporal] (in the next two weeks)
[your availability] (when’s good for you)
[interject] (let’s see)
[suggest time] (how about Friday the second in the morning)
[my-unavailability] (I’m busy that morning)
4.4.10.4
Numero degli annotatori:
Tra 4 e 10 (linguisti, linguisti computazionali, informatici).
4.4.10.5
Numero dei dialoghi annotati
Numerosi set di test. Ogni set comprende circa 100 enunciati.
4.4.10.6
Valutazione dello schema:
La metrica non standard utilizzata (“correct word to state classification”) ammonta all’8%. Non è
pubblica la formula che permette di calcolare la metrica qui riportata.
4.4.10.7
Obiettivo per il quale è stato generato lo schema di annotazione:
Programmazione/organizzazione di appuntamenti
E-121
4.4.10.8
Linguaggio di codifica:
Formato proprio dello schema.
4.4.10.9
Esistenza di uno strumento software per l’annotazione:
L’annotazione è effettuata manualmente.
4.4.10.10
Sistema Janus.
E-122
4.4.11 Schema di annotazione di Giovanni Flammia
(Spoken Language Systems Group, Laboratory for Computer Science, Massachussetts Institute
of Technology)
4.4.11.1
Documentazione:
ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/flammia
Autore: Giovanni Flammia
Titolo: Instructions for Annotating Segments in Dialogues
4.4.11.2
Fenomeni annotati:
Fenomeni strutturali/funzionali, quali ad es. la divisione dei dialoghi in segmenti riguardanti
ognuno un dato argomento (topic). Un segmento è quindi definito come la sequenza di due o più
turni di dialogo (che includono almeno un enunciato di ciascun parlante), all’interno dei quali si ha
il passaggio di un’informazione rilevante tra i partecipanti alla conversazione. La rilevanza è
definita in termini di necessità ai fini della prosecuzione del compito definito dal dialogo. Lo
schema di annotazione Flammia non fornisce le categorie con le quali annotare i segmenti; gli
annotatori sono liberi di scegliere la descrizione che ritengono più appropriata per ciascun
segmento.
In ogni caso, alcune etichette di atti linguistici esemplificate nell’approccio di Flammia sono:
Request, Response, Acknowledge, Accept, Reject, Repeat, Confirm e Question Confirm. È
specificata una procedura decisionale a proposito di come “ritagliare” i segmenti dai dialoghi,
insieme ad alcune regole euristiche riguardanti le possibili corrispondenze tra le forme di superficie
ed i confini di segmento. Ai fenomeni di discorso quali saluti, introduzioni, offerte di aiuto,
fenomeni di mantenimento del canale (atti fatici), suggerimenti per la continuazione, ringraziamenti
e chiusure non viene riconosciuto uno status rilevante ai fini della segmentazione. Vengono
segnalati ed annotati esclusivamente i segmenti che contengono informazioni rilevanti per il
compito da svolgere.
4.4.11.3
Esempi:
http://sls-www.lcs.mit.edu/~flammia/Nb/example_output.gif
4.4.11.4
16 studenti con qualche conoscenza di informatica e linguistica.
4.4.11.5
Numero dei dialoghi annotati:
25 dialoghi composti mediamente da 40 turni ciascuno e 29 dialoghi contenenti 120 enunciati
ciascuno. La lingua dei dialoghi è l’inglese americano.
E-123
4.4.11.6
Disponibile al sito:
http://www.sls.lcs.mit.edu/~flammia/publications.html
•
“Empirical evaluation of human performance and agreement in parsing discourse constituents in
spoken dialogue”;
•
“Learning the structure of mixed initiative dialogues using a corpus of annotated
conversations”;
L’indice di accordo tra i valutatori riguardante la definizione dei confini di segmento è pari a
83,4%.
L’indice medio di accuratezza simbolica di coppia per scopi riguardanti i segmenti è pari a
80,1%.
k = 0,6
4.4.11.7
Dialoghi di raccolta di informazioni; conversazioni telefoniche tra utenti ed operatori del servizio
Movies Now di BellSouth – un numero telefonico che fornisce informazioni a proposito dei film in
programmazione ad Atlanta.
4.4.11.8
Linguaggio di codifica di Nb. Questo linguaggio non è pienamente compatibile con SGML, ma
con Nb viene distribuito un programma che converte i file annotati con Nb in file SGML standard.
4.4.11.9
4.4.11.10
Non sono disponibili informazioni in merito.
E-124
4.4.12 LinLin
(Linköping University)
4.4.12.1
Documentazione:
http://www.cs.umd.edu/users/traum/DSD/arne2.ps
Autori: Nils Dahlbäck e Arne Jönsson
Titolo: A coding manual for the Linköping dialogue model
Per ulteriori informazioni vedi Larsson (1998), Ahrenberg, Dahlbäck & Jönsson (1995), Jönsson
(1995a), Jönsson (1995b), Jönsson, 1993.
4.4.12.2
•
•
Initiative
•
Update (U): l’utente fornisce informazioni al sistema
•
Question (Q): l’utente ottiene informazioni dal sistema
Response
•
•
Fenomeni annotati:
Answer (A): risposta del database del sistema, risposta a una richiesta di chiarimento
Discourse management
•
Opening (DO)
•
Ending (DE)
•
Discourse Continuation (DC)
4.4.12.3
Esempi:
S:
[Welcome to Cardata] DO
U:
[show mercedes] Q
S:
[Wait…] DC
[Cardata è un sistema in grado di rispondere a domande su una serie di modelli di macchine a
proposito di produttore, modello, anno, paese di produzione, predisposizione alla ruggine, classe di
grandezza e a domande a proposito di prezzo, sicurezza, spazio e dati tecnici]
A:
[Any particular wishes?] Q
U:
[cost and space] A
4.4.12.4
Attualmente nessuno. In precedenza lo schema è stato utilizzato da quattro persone.
E-125
I dialoghi sono stati analizzati da linguisti, da uno psicologo e da un informatico. La maggior
parte del lavoro di etichettatura dei dialoghi è stato effettuato da due studenti, uno di scienze
cognitive e uno di informatica.
4.4.12.5
Il corpus usato per lo sviluppo di LinLin comprende 30 dialoghi con 1749 enunciati. Il modello
di dialogo è anche stato applicato a 100 dialoghi SUNDIAL con circa 700 enunciati e a 10 dialoghi
Waxholm con circa 400 enunciati (tutti i dialoghi sono in svedese).
4.4.12.6
Non è disponibile alcun indice K relativo allo schema di annotazione LinLin, ma è stato
raggiunto un accordo tra i valutatori del 97%.
4.4.12.7
LinLin è stato progettato per analizzare dialoghi scritti uomo-macchina (simulata) riguardanti la
ricerca di informazioni. Attualmente è anche applicato al corpus AIRPLANE con dialoghi di
istruzioni uomo-uomo.
4.4.12.8
Linguaggio di codifica Nb (pseudo SGML – non pienamente compatibile).
4.4.12.9
Nb (NotaBene) per la codifica, perlscript per l’analisi.
4.4.12.10
Lo schema è usato nel progetto S-DIME (Swedish Dialogue Move Engine).
E-126
4.4.13 Maptask
(Human Communication Research Centre, University of Edinburgh)
4.4.13.1
Documentazione:
http://www.hcrc.ed.ac.uk/~jeanc/
Autori: Carletta, J.C., Isard, A., Isard, S., Kowtko, J., Doherty-Sneddon, G. e Anderson, A.
Titolo: HCRC Dialogue Structure Coding Manual
Human Communication Research Centre HCRC TR-82, University of Edinburgh, Edinburgh,
Scotland, 1996
Una versione più breve delle istruzioni per l’annotazione è presente in:
Autori: Carletta, J.C., Isard, A., Isard, S., Kowtko, J., Doherty-Sneddon, G. e Anderson, A.
Titolo: The Reliability of Dialogue Structure Coding Scheme. Computational Linguistics, 23,
13-31. 1997
4.4.13.2
Fenomeni annotati:
Vengono annotati soprattutto atti linguistici, ma le documentazioni descrivono anche
l’annotazione e gli indici di affidabilità relativi a strutture discorsive di livello più alto costruite
partendo dagli atti linguistici, in termini di giochi che comprendono dialoghi orientati al
raggiungimento di un obiettivo e transazioni riguardanti la pianificazione del dialogo.
•
•
•
Initiating Moves
•
Instruct
•
Explain
•
Check
•
Align
•
Query-YN
•
Query-W
Response Moves
•
Acknowledge
•
Reply-Y
•
Reply-N
•
Reply-W
•
Clarify
Ready Move
E-127
4.4.13.3
Esempi:
*TA15
*A 3 3,4
*E 7 IG instruct
And go up to about the middle of the map.
*M instruct
*TB16
*B 7,*
The middle of the map.
*M acknowledge
*TA 17
And stop.
*M instruct
4.4.13.4
La maggior parte del corpus Map Task è stato annotato da quattro diversi annotatori. In tutto
almeno 50 persone hanno provato lo schema, che è stato utilizzato da una dozzina di progetti di
ricerca. La maggior parte degli annotatori erano dottorandi in linguistica o psicologia.
4.4.13.5
128 nel corpus Map Task originario (dialoghi in inglese), più almeno altrettanti dialoghi annotati
usando lo stesso schema o varianti minori, compresi nel Map Task con dialoghi in altre lingue e/o in
altre condizioni (solo audio, mediati da un video, con bambini) o con dialoghi con un obiettivo
diverso (ad es. organizzazione di viaggi, simulazione di servizi finanziari, task più semplici per
bambini).
4.4.13.6
I risultati della valutazione sono pubblicati in:
Carletta, J.C., Isard, A., Isard, S., Kowtko, J., Doherty-Sneddon, G. e Anderson, A. (1997) The
Reliability of a Dialogue Structure Coding Scheme. Computational Linguistics, 23, 13-31.
Valori degli indici registrati:
per la segmentazione degli atti: k = 0.92 (N = 4079, k = 4)
per la classificazione degli atti nel corpus principale: k = 0.83 (N = 563, k = 4)
E-128
per la classificazione degli atti usando annotatori non esperti ed istruzioni scritte: k = 0.67 (N = 139,
k = 3, indice di accordo k = 0.69 quando anche gli sviluppatori dello schema di annotazione si sono
uniti al gruppo)
per la distinzione principale tra apertura (initiation) , reazione (response) o “pronto” (ready), usando
annotatori non esperti: k =0 .84.
I disaccordi sono stati registrati tra CHECK e QUERY-YN, INSTRUCT e CLARIFY, e
ACKNOWLEDGE, READY e REPLY-Y.
4.4.13.7
Lo schema è motivato linguisticamente, ma è stato sviluppato sul map task.
4.4.13.8
L’attuale linguaggio di codifica è specificato in un documento interno dello HCRC; il linguaggio
è compatibile con SGML ed è basato su TEI.
4.4.13.9
Non esiste uno strumento software pubblicamente disponibile. Gli strumenti software interni per
l’annotazione operano in python usando LT-XML e Tk, e in Microsoft Word. Per effettuare
l’annotazione è possibile configurare Nb (implementato in TCL/Tk).
Non è disponibile l’annotazione semi-automatica.
4.4.13.10
Questo schema di annotazione è stato usato per a) strutturare l’elemento di pianificazione del
dialogo in un sistema di dialogo, b) imparare ad annotare gli atti linguistici basati sul
riconoscimento del topic e c) effettuare il training della relazione tra il tipo di prosodia e il tipo di
atto linguistico.
E-129
4.4.14 Schema di annotazione di Christine Nakatani
(Harvard University, USA and AT&T Bell Laboratories, USA)
4.4.14.1
Documentazione:
ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/nakatani
Autore: Christine H. Nakatani, Barbara J. Grosz, David D. Ahn e Julia Hirschberg (1995)
Titolo: “Instructions for Annotating Discourses”. Technical Report Number TR-21-95. Center
for Research in Computing Technology, Harvard University, Cambridge, MA.
4.4.14.2
Fenomeni annotati:
Lo scopo di questo schema è annotare gli scopi dei segmenti di discorso, cioè il motivo per cui
un parlante pronuncia un dato segmento di discorso. Lo scopo di ogni segmento è descritto
all’inizio del segmento, su una riga che inizia con una semplice etichetta WHY?. Gli scopi sono
individuati facendo riferimento alle conoscenze personali e all’intelligenza generale degli
annotatori. Viene consigliato agli annotatori di usare espressioni adatte a descrivere l’intenzione del
parlante il più possibile specifiche, e quindi di preferire espressioni del tipo “dare un consiglio su
come rimuovere la vena sotto l’acqua corrente”, anziché espressioni come “spiegare la pulitura
della venatura”. In generale, un segmento viene associato ad un intento, ma un segmento può anche
essere relazionato a molti scopi e viceversa.
Gli intenti che corrispondono a segmenti di discorso diversi sono organizzati in modo
gerarchico, da WHY? usato per in indicare lo scopo generale agli scopi minori sussidiari dei
segmenti minori. I segmenti vanno dall’intero dialogo/discorso alle frasi; i sintagmi avverbiali e
preposizionali (chiamati mini-segmenti) che forniscono informazioni aggiuntive non sono etichettati
con un’etichetta WHY?. Non ci sono regole a proposito del numero dei sottosegmenti che ogni
segmento può contenere. I segmenti e gli scopi allo stesso livello non devono necessariamente
essere allo stesso livello di dettaglio o riguardare lo stesso tipo di informazione. I segmenti e gli
intenti allo stesso livello possono non essere direttamente relazionati uno all’altro, ma devono
essere necessariamente relazionati al segmento/intento immediatamente più grande. Due sintagmi
consecutivi possono condividere o non condividere lo stesso scopo; se lo condividono, i loro scopi
appartengono allo stesso livello: se non lo condividono, uno dei due scopi è sussidiario dell’altro e
quindi uno dei due sintagmi introduce un sottosegmento in esso incastonato. I segmenti discontinui
(come nel caso di digressioni, incisi, elaborazioni ecc., che sospendono momentaneamente il topic
in corso di svolgimento) appaiono come un sottosegmento compreso all’interno del segmento più
grande, che lo “avvolge”.
4.4.14.3
Esempi:
WHY? Teach new cook how to make stuffed sole
We’re going to be making sole, stuffed with shrimp mousse.
WHY? Explain steps of initial preparation of ingredients and equipment
WHY? Identify ingredients
E-130
In the small bag is the sole and the shrimp.
And there are ten small sole fillets and there’s half a pound of
medium shrimp
WHY? Instruct new cook to get equipment ready.
Okay, and you’re going to need a blender to make the mousse. So
you should get your blender out.
WHY? Explain how to make shrimp mousse
Okay, the first thing we want to do, we should do is we should make the
shrimp mousse.
WHY? Tell how to prepare shrimp
And, what you want to do is you want to take the shrimp, okay and
you want to peel and devein them.
WHY? Describe peeling
Okay, what you do is you peel the outer shell off.
WHY? Describe deveining process
WHY? Tell how to find vein by cutting
Okay, and then you hold the shrimp and
you run a knife down the outside,
it’s like the back of the shrimp, okay,
just cut in about a sixteenth of an inch.
What you’ll see, is there’ll be a vein, there.
WHY? Tell how to remove vein
Okay, it, it’ll either be a pinkish vein or a black vein.
WHY? Explain removal of pink vein
Okay, if there’s a pink vein you can just pull it out.
WHY? Explain removal of dark vein
Okay, if there’s a dark colored vein, you can, you wash that
out. Run your thumb down one of your fingers down the back
to get that out.
WHY? Give tip on removing vein under faucet
And you know, what I usually do is, to rinse or
wash out the vein, I just hold the shrimp under
the sink, under the uh, the faucet. I cut it and then I put it
under the faucet.
WHY? Explain how to blend shrimp and other ingredients to make mousse
Okay now um, let’s see, take the shrimp and place the shrimp in the blender.
…
E-131
WHY? Describe how to prepare sole for “stuffing”
Now, get out a large casserole, like a nine by twelve.
…
Now you want to place five of the um, the sole fillets side by side in the
baking dish.
WHY? Explain how to “stuff” sole with shrimp mousse
Okay, and now you take the shrimp mousse and you uh, you place a fifth of
the mousse on each of the fillets.
…
Use all the mousse. Spread it evenly over each fillet.
4.4.14.4
Un gruppo di sei annotatori ha ricevuto un addestramento per imparare ad usare il manuale per il
progetto sul Boston Directions Corpus all’università di Harvard (il gruppo comprendeva gli autori
del manuale). Gli annotatori non avevano conoscenze linguistiche. Si è appositamente scelto di
impiegare annotatori inesperti per ottenere delle annotazioni “non prevenute” (da confrontare ad es.
con le annotazioni fatte dai ricercatori stessi).
4.4.14.5
Sono stati annotati circa 72 monologhi in cui venivano fornite indicazioni stradali effettuati da
quattro parlanti diversi. L’annotazione è stata effettuata ascoltando i monologhi. Tutti i monologhi
sono in inglese. I monologhi sono stati segmentati in unità prosodiche intermedie ai fini
dell’annotazione del dialogo.
4.4.14.6
I risultati delle valutazioni statistiche e quantitative effettuate sullo schema non sono ancora stati
pubblicati.
4.4.14.7
Questo schema non è limitato ad alcun compito o scopo particolare. È comunque principalmente
applicato all’analisi di dialoghi che forniscono indicazioni stradali. Lo schema non è adatto ad
analizzare conversazioni orali che non hanno un chiaro intento comunicativo.
4.4.14.8
Linguaggio di codifica Nb. Questo linguaggio non è completamente compatibile con SGML, ma
con Nb viene distribuito un programma che converte i file annotati in Nb in file SGML standard.
E-132
4.4.14.9
4.4.14.10
Boston Directions Project, anche nel lavoro sui correlati intonativi della struttura del discorso
(Barbara Grosz, Julia Hirschberg, Christine Nakatani).
E-133
4.4.15 SLSA
(Göteborg University}
4.4.15.1
Documentazione:
Feedback e gestione dei turni:
Autori: Joakim Nivre, Jens Allwood, Elisabeth Ahlsén
Titolo: Nivre, Joakim, Allwood, Jens & Elisabeth Ahlsén (1998). Interactive Communication
Management: Coding Manual. Göteborg University: Department of Linguistics.
Gestione della comunicazione
Autori: Jens Allwood, Elisabeht Ahlsén, Joakim Nivre, Staffan Larsson
Titolo: Own Communication Management (in svedese)
4.4.15.2
•
•
Fenomeni annotati:
Per i feedback e la gestione dei turni:
•
Categorie grammaticali
•
Operazioni strutturali (fonologiche, morfologiche, contestuali)
•
Posizione (delle unità strutturali all’interno del FBU/ all’interno di un enunciato ampio)
•
Funzione del FBU
Per la gestione della comunicazione:
•
Struttura (pausa, parola, sintagma, ripetizione, ecc.)
•
Funzione (principalmente scelta vs. cambio)
•
Atti comunicativi all’interno di un dialogo in tribunale
•
Atti comunicativi olistici
•
Funzione espressiva principale
•
Funzione evocativa principale
•
Obblighi
•
Relazioni con i contributi precedenti
4.4.15.3
Esempi:
A: kommer du?
(Are you coming?)
B: ja
(Yes.)
E-134
A: kan du [1 ta me en] 1 penna
(Can you take a pencil with you?)
B: [1 va sa du] 1
(What did you say?)
B: okay // vill du ha en egen
(All right, would you like to have your own one?)
A: ja de vill ja
(Yes, please!)
4.4.15.4
7 linguisti.
4.4.15.5
Circa 100 (in svedese).
4.4.15.6
Sono stati fatti test per misurare l’affidabilità dello schema, ma i risultati non sono disponibili.
4.4.15.7
Obiettivo per cui è stato generato lo schema di annotazione:
•
Dipendente dal dominio (dialoghi in tribunale)
•
Motivati linguisticamente – si distingue tra:
•
Tipi di attività sociale
•
Tipi di parlante
•
Sottosequenze
•
Mezzo
•
Scritto vs. orale
•
Partner umano vs. partner non umano
•
Faccia a faccia vs. mediato
4.4.15.8
Il linguaggio di codifica non è basato su alcuno dei linguaggi di codifica standard. È invece
basato sulla logica come linguaggio di annotazione.
4.4.15.9
Tractor (sviluppato all’università di Göteborg): lavora su Ix-Window, UNIX e Power Macs.
E-135
•
Possibilità di identificare livelli strutturali e descrittivi;
•
Possibilità di distinguere tra schema multi-valore e schema a valore singolo;
•
Possibilità di distinguere tra proprietà e relazioni;
•
Supporto di affidabilità corretto;
•
Supporto di analisi automatiche;
•
Possibilità di effettuare schemi gerarchici;
•
Possibilità di includere facilmente schemi alternativi diversi.
4.4.15.10
Usato nel sistema SLSA.
E-136
4.4.16 Schema di annotazione del progetto Switchboard SWDB-DAMSL
(University of Colorado)
4.4.16.1
Documentazione:
http://stripe.Colorado.EDU/~jurafsky/manual.august1.html
Autori: Dan Jurafsky, Liz Shriberg, Debra Biasca
Titolo: Switchboard SWBD-DAMSL, Ahallow-Discourse-Function Annotation; Coders Manual,
Draft 13
4.4.16.2
•
•
Fenomeni annotati:
Communicative Status
•
Uninterpretable (%): But, uh, yeah
•
Non-verbal (x); [Laughter]
•
Abandoned or Turn-Exit (%): So,-
•
Self-talk (t1): What’s the world I’m looking for…
•
3rd-party-talk (t3): My goodness, Diane, get down from there.
Forward-Communicative-Function
•
•
•
Statement
•
Statement-non-opinion (sd): Me, I’m in the legal department
•
Statement-opinion (sv): I think it’s great.
Influencing-addressee-future-action
•
Yes-No-Question (qy): Do you have any special training?
•
Wh-Question (qw): Well, how old are you?
•
Open-Question (qo): How about you?
•
Or-Clause (qrr): Or is it more of a company?
•
Declarative Yes-No-Question (qy^d): So you can afford to get a house?
•
Declarative Wh-Question (qw^d): You are what kind of buff?
•
Tag-Question (^q): Right?
•
Action-directive (ad): Why don’t you go first?
•
Backchannel in question form (bh): Is that right?
•
Rhetorical-Questions (qh): Who would steal a newspaper?
Committing-speaker-future-action
•
Offers, Options, Commits (oo,cc,co): I’ll have to check that out
E-137
•
•
•
Conventional-opening (fp): How are you?
•
Conventional-closing (fc): Well, it’s been nice talking to you.
•
Thanking (ft): Hey thanks a lot.
•
Apology (fa): I’m sorry.
Backwards-Communicative-Function
•
•
•
Agreement
•
Agree/Accept (aa): That’s exactly it.
•
Maybe/Accept-part (aap/am): Something like that
•
Reject (ar): Well, no.
•
Hold before answer/agreement (^h): I’m drawing a blank.
Understanding
•
Signal-non-understanding (br): Excuse me?
•
Response Acknowledgement (bk): Oh, okay.
•
Repeat-phrase (b^m): Oh, fajitas.
•
Collaborative Completion (^2): Who aren’t contributing?
•
Acknowledge (b): Uh-huh.
•
Summarise/reformulate (bf): Oh, you mean you switched schools for the kids.
•
Appreciation (ba): I can imagine.
•
Downplayer (bd): That’s all right.
Answer
•
Yes answers (ny): Yes.
•
No answers (nn): No.
•
Affirmative non-yes answers (na.nyê): It is.
•
Negative non-no answers (ng.nnê): Uh, not a whole lot.
•
Other answers (no): I don’t know
•
Dispreferred answers (arp,nd): Well, not so much that.
•
Other
•
Quotation (^q): You can’t be pregnant and have cats.
•
Hedge (h): I don’t know if I’m right or not.
4.4.16.3
ad
Esempi:
A63
utt2:
{C and } think [what, + what’s] is going to be like for [
E-138
youngest,] + [an +] my oldest] son, when he goes to
school.
qh
A.63 utt3:
What’s going to happen? /
sd
A.63 utt4:
{E I mean} [I, + I’m] afraid for him to go. /
4.4.16.4
9 (linguisti).
4.4.16.5
1155 conversazioni/oltre 250 000 enunciati/1,4 milioni di parole.
4.4.16.6
0,80 < k < 0,84
4.4.16.7
Conversazioni telefoniche tra persone che non si conoscono.
4.4.16.8
Una variante di DAMSL (che è a sua volta una variante di SGML).
4.4.16.9
Non esiste uno strumento software per l’annotazione. Gli enunciati vengono annotati a mano.
4.4.16.10
Questo schema è usato per effettuare il training di grammatiche discorsive stocastiche e per
costruire Modelli di Linguaggio (LM) migliori per l’Automatic Speech Recognition (ASR) di
Switchboard. Una variante di SWBD-DAMSL è CLARIFY, che viene attualmente sviluppata alla
Carnegie Mellon University ([email protected]).
E-139
4.4.17 Schema di annotazione di David Traum
(University of Maryland)
4.4.17.1
Documentazione:
ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/traum
Autore: David Traum
Titolo: Coding Schemes for Spoken Dialogue Structure
4.4.17.2
•
•
•
Fenomeni annotati:
Relatedness
•
e Explicit Acknowledgement
•
Related to
•
0 relazionato all’enunciato più recente del parlante precedente
•
1 relazionato all’enunciato prima del più recente ma non all’enunciato più recente
•
2 relazionato a due enunciati prima del più recente
•
etc. numeri più alti di enunciati andando a ritroso
•
, relazionati a materiale precedente dell’altro parlante, ma non è chiaro all’annotatore se
sono relazionati all’enunciato immediatamente precedente o ad enunciati ancora precedenti
•
u non relazionato a quanto detto in precedenza da un parlante
•
? è incerto se gli enunciati sono relazionati a quanto detto in precedenza dall’altro parlante
•
u-e non relazionato seguente un riconoscimento esplicito
•
1-e relazionati al penultimo enunciato dell’altro parlante, quando l’ultimo enunciato
contiene solo un riconoscimento esplicito
Grounding Acts
•
Initiate: inizia una nuova unità di discorso (DU) con contenuto separato da quello delle DU
precedenti incomplete
•
Continue: continuazione del materiale precedente da parte dello stesso parlante
•
Acknowledge: dimostra o sostiene la comprensione del materiale in precedenza pronunciato
dall’altro parlante
•
Repair: corregge (potenziali) incomprensioni del contenuto di un’unità di discorso (DU)
•
Request Repair: segnale di mancata comprensione
•
Request Ack: segnala all’altro di attestare che ha capito
•
Cancel: cancella una precedente DU
Surface Form
E-140
•
•
•
Declarative
•
Interrogative
•
Imperative
•
Fragment
•
Cue word
•
Non-linguistic
Illocutionary Function
•
INFORM: il parlante fornisce informazioni nuove (include anche l’atto di fornire
informazioni richieste quando si risponde ad una domanda)
•
YNQ: il parlante fa una domanda si/no per cercare di determinare la polarità di una
proposizione
•
CHECK: il parlante tenta di verificare la veridicità di una certa (sospetta) proposizione
•
WHQ: il parlante fa una domanda wh- per cercare di determinare il valore di un dato item
in una proposizione
•
SUGGEST: il parlante propone un nuovo item (azione, proposizione, limitazione di un
piano)
•
REQUEST: il parlante mira a far eseguire una qualche azione all’ascoltatore
•
ACCEPT: il parlante accetta una proposta precedente dell’ascoltatore
•
REJECT: il parlante rifiuta una proposta precedente del parlante
•
SUPP-INF: il parlante fornisce informazioni aggiuntive (magari già note) che aiutano
l’ascoltatore ad interpretare un altro atto linguistico. Generalmente questo atto linguistico
viene effettuato in una proposizione secondaria o in un sintagma appositivo.
•
SUPP-SUG: il parlante fa un ulteriore suggerimento di contenuto, che si suppone faccia
parte del piano avviato da un altro suggerimento o da un’altra richiesta. Questo atto
linguistico viene generalmente effettuato con una proposizione finale (purpose clause)
•
EVAL: il parlante fa una valutazione a proposito di un item. Questo include sia valutazioni
fattuali (ad es. la probabilità di successo di un’azione) che valutazioni personali, che
descrivono cosa prova l’autore nei confronti di qualcosa.
•
GREET: il parlante cerca di stabilire una connessione, ad es. dicendo “hello” o dicendo il
nome dell’ascoltatore all’inizio del dialogo
•
APOLOGIZE: il parlante si scusa per qualche azione (ad es. parlare al di fuori del proprio
turno) o interpretazione errata
Argumentation Structure
•
(: so act1 act2): l’atto 1 è rilevante per l’interpretazione dell’atto 2. Se l’atto 2 è un atto
informativo, la veridicità del suo contenuto dovrebbe essere parzialmente supposta dall’atto
1. Se l’atto 2 è un suggerimento, allora il suggerimento dovrebbe riguardare il (o parte del)
piano dominato dall’atto 1.
•
(: and act1 act2): l’interpretazione dell’atto 2 è collegata all’atto 1 in modo tale da formare
un tutto coerente. Se l’atto 2 è un suggerimento, allora dovrebbe essere parte dello stesso
piano cui appartiene l’atto 1.
E-141
•
(: and-then act1 act2): l’interpretazione dell’atto 2 è collegata all’atto 1 in modo tale da
formare un tutto coerente. Se l’atto 2 è un suggerimento, allora dovrebbe far parte dello
stesso piano cui appartiene l’atto 1. Inoltre, l’atto 2 dovrebbe essere temporalmente
successivo all’atto 1.
•
(: purpose act form): l’atto deve essere fatto allo scopo di raggiungere una forma
•
(: background act1 act2): l’atto 1 viene compiuto con l’intento di rendere l’atto 2 più chiaro
all’ascoltatore.
4.4.17.3
Esempi:
u: so we have to start in Avon
s: okay
u: how long does it take to bring engine one to Dansville
S: three hours
u: okay <sil> and then <sil> back to Avon to get the bananas
S: three more hours si(x) – six in all
u: how long does it take to load the bananas
UU#
31.9
Speaker
M
Utterance
Grounding act label
it would get there at 3,
is that what you’re
saying?
31.10
32.1
S
it would get there at 4.
33.1
M
it would get there at 4.
4.4.17.4
Repair
2 per l’annotazione della coerenza tra i turni;
1 (l’autore stesso) per l’annotazione di base.
4.4.17.5
26 del corpus TRAINS-93 per l’annotazione della coerenza tra i turni (dialoghi in inglese);
10 del corpus TRAINS-91 per l’annotazione di base (dialoghi in inglese).
4.4.17.6
È stata effettuata una valutazione di questo schema, ma non sono stati pubblicati i risultati.
E-142
4.4.17.7
Questo schema è stato progettato per essere applicato ad ogni tipo di dialogo; attualmente viene
applicato a dialoghi orientati verso un obiettivo specifico.
4.4.17.8
Linguaggio di codifica Nb. Questo linguaggio non è del tutto compatibile con SGML, ma con
Nb viene distribuito un programma che converte i file annotati in Nb in file SGML standard.
4.4.17.9
4.4.17.10
Sistema TRAINS-93.
E-143
4.4.18 Schema di annotazione del progetto Verbmobil
(Deutsches Forschungszentrum für Künstliche Intelligenz, Saarbrücken)
4.4.18.1
Documentazione:
http://www.dfki.de/cgi-bin/verbmobil/htbin/doc-access.cgi
Autori: Jan Alexandersson, Bialnka Buschbeck-Wolf, Tsutomu Fujinami, Elisabeth Maier, Norbert
Reithinger, Birte Schmitz, Melanie Siegel
Titolo: Dialogue Acts in VERBMOBIL-2
REPORT 304, Mai 1997
4.4.18.2
Fenomeni annotati:
ACCEPT, CLARIFY, CLARIFY_ANSWER, CONFIRM, CONVENTION, DELIBERATE,
DEVIATE_SCENARIO, DIGRESS, EXPLAINED_REJECT, GREETING, GREETING_BEGIN,
GREETING_END,
FEEDBACK,
FEEDBACK_BACKCHANNELING,
FEEDBACK_NEGATIVE, FEEDBACK_POSITIVE, GIVE_REASON, INFORM, INIT,
INTRODUCE, NOT_CLASSIFIABLE, POLITENESS_FORMULA, REFER_TO_SETTING,
REJECT, REQUEST, REQUEST_CLARIFY, REQUEST_COMMENT, REQUEST_SUGGEST,
SUGGEST, THANK
4.4.18.3
Esempi:
RMW002:
<:<# <#Klicken <A <#Klicken how ‘bout <;comma <#Klicken
<#Klicken at <;comma three on <;comma <A February third
<;quest <A <;seos @SUGGEST
#Rascheln would that be okay <;quest <# <#Klicken <# <# <;seos
@REQUEST_COMMENT
4.4.18.4
3 (tutti non linguisti).
4.4.18.5
Inglese: 252 (1869 turni, 4923 segmenti); giapponese: 400 (7057 turni, 8747 segmenti); tedesco:
520 (5530 turni, 13932 segmenti).
4.4.18.6
Per lo schema di dialogo usato in VERBMOBIL-1 è stato raggiunto un indice k=0.83 per 10
dialoghi presegmentati etichettati da due annotatori con uguale esperienza. Il valore per la stabilità
nel tempo è stato k=0.84 fatto registrare dagli stessi annotatori che hanno etichettato dialoghi
identici a un anno di distanza dal primo esperimento.
E-144
4.4.18.7
Programmazione di appuntamenti.
4.4.18.8
Verbmobil.
4.4.18.9
È stato utilizzato il tool AnnoTag
•
manuale;
•
linguaggio d’implementazione: Tcl/Tk.
4.4.18.10
Sistema Verbmobil.
E-145
SEZIONE II - SPECIFICHE DELL’ANNOTAZIONE IN SI-TAL
E-146
1 Architettura generale di annotazione
A partire da segnale vocale verranno prodotti diversi documenti, corrispondenti a diversi livelli
di annotazione riguardanti il contenuto linguistico del segnale stesso. Il livello di base è dato dalle
trascrizioni, comprendenti sia le parole pronunciate dai parlatori, che eventuali fenomeni non
linguistici, quali colpi di tosse e esitazioni, e rumori esterni, che possono aiutare la comprensione
del dialogo. Al livello delle trascrizioni faranno poi riferimento tutti i livelli di annotazione
considerati, eccetto eventualmente l'annotazione prosodica, per la quale può risultare necessario
riferirsi direttamente al segnale acustico.
In questo modo, l'allineamento tra le varie annotazioni viene mantenuto più facilmente anche in
caso di correzioni di un qualche livello o della trascrizione: quest'ultimo caso è l'unico in cui
bisogna intervenire per propagare la correzione, i cui effetti hanno però caratteristiche di località
rispetto al turno.
Tutti i documenti considerati, e quindi sia le trascrizioni che i diversi livelli di annotazione,
saranno prodotti in XML, per le ragioni di compatibilità con il resto del sistema e di
standardizzazione già esposti nell'introduzione. In notazione XML, l'ipotesi che tutti i livelli di
annotazione facciano riferimento alle trascrizioni implica che gli unici link possibili tra oggetti
etichettati appartenenti a file diversi vanno dai file di annotazione relativi ai vari livelli verso i file
di trascrizione. Non ci saranno link che vanno dai file di trascrizione verso i file di annotazione, e
soprattutto non ci saranno link tra file di annotazione relativi a livelli diversi.
Ogni documento di annotazione conterrà le informazioni relative al file di riferimento. Quindi, il
file di trascrizioni conterrà il riferimento al file o ai file contenenti il segnale acustico trascritto. Se
un file di trascrizioni si riferisce a più file di materiale acustico, allora la trascrizione verrà
segmentata in tante parti quanti sono i file e ogni parte conterrà un attributo che fa riferimento al file
corrispondente a quella parte.
Si noti che un file di trascrizioni può anche non far riferimento a nessun file di segnale laddove
questo non sia disponibile. Questo non avverrà nel materiale reso disponibile in SI-TAL, dove per
ogni dialogo verrà fornito sia il segnale acustico che le trascrizioni e tutti i livelli di annotaizone, ma
va previsto per permettere agli utenti di completare il corpus con altro materiale che avessero a
disposizione.
L'unico livello assolutamente obbligatorio è rappresentato dalle trascrizioni. Non è infatti
pensabile alcuna annotazione senza avere a disposizione il contenuto lessicale del materiale
considerato. Nel caso minimale, le trascrizioni possono non essere completate con l'informazione
extra-linguistica, sia relativa al parlante (esitazioni, risate, starnuti) che relativa all'ambiente (rumori
di fondo, squilli). Ogni file di annotazione conterrà quindi il riferimento al file delle trascrizioni cui
fa riferimento.
In pratica, l'annotazione verrà realizzata producendo un file per ogni dialogo e per ogni livello:
ad esempio, nel nostro caso in cui vengono considerati quattro livelli, avremo per ogni dialogo un
file di trascrizioni e quattro file per i quattro livelli di annotazione. Tutti e cinque questi file saranno
in formato XML.
La segmentazione del materiale acustico potrà invece essere più dettagliata (ad esempio, per
turno). Infatti le condizioni di acquisizione del materiale possono imporre dei vincoli che non
permettono di avere una registrazione continua di tutto il materiale. Nel caso di dialoghi uomouomo, infatti, l'acquisizione può essere fatta su un unico canale, ad esempio con un unico microfono
E-147
posto in prossimità dei due parlatori, o su due canali, uno per parlatore. Se infatti i parlatori non si
trovano vicini, è necessario usare due microfoni, ed è possibile che l'architettura del sistema di
acquisizione consigli di effettuare due acquisizioni separate. In questo caso, una volta segmentato il
materiale in turni, si riordinerà il dialogo ordinando i turni, ma risulta conveniente lasciare le
registrazioni del segnale su file separati.
Per l'annotazione, invece, risulta più comodo avere il dialogo su un unico file, in modo da
poterne seguire l'evoluzione. Questo è particolarmente importante per livelli in cui l'annotazione
non fa riferimento solo al singolo turno, come il livello pragmatico. Ogni file conterrà quindi una
prima parte di informazioni e una seconda parte con l'annotazione vera e propria. Tra le
informazioni verranno inclusi i dati relativi all'acquisizione (data, ora, luogo, tipo di ambiente), i
dati relativi al parlatore o ai parlatori (sesso, fascia d'età, provenienza, ...) ed eventualmente altre
informazioni disponibili (dominio, scenario, ...).
Questa struttura permette di arricchire facilmente l'architettura dello schema di annotazione con
nuovi livelli: basterà infatti che ogni nuovo livello faccia anch'esso riferimento alle trascrizioni per
mantenere l'allineamento. Lo strumento software per l'annotazione, la visualizzazione e la ricerca
potrà fare affidamento sull'ipotesi di un solo livello di linking per risolvere efficientemente i
problemi di visualizzazione e ricerca su più livelli.
E-148
2 Livello prosodico
E-149
2.1
Requisiti
Obiettivo di questo capitolo è l’identificazione di un insieme di unità prosodiche (unità
fonologiche con un ambito più ampio di un segmento), e di un insieme di fenomeni prosodici
(‘sovraimposti’ a queste unità) al fine di contribuire alla definizione delle specifiche per il livello
prosodico. La descrizione si basa sul lavoro effettuato da S. Quazza e J.M. Garrido all’interno del
progetto MATE e presuppone lo stato dell’arte dell’annotazione prosodica illustrato nei paragrafi
precedenti.
Le unità prosodiche costituiscono l’ambito naturale degli eventi prosodici. Nella letteratura (si
veda il capitolo sullo stato dell’arte) sono stati proposti diversi tipi di unità prosodiche: paragrafi,
enunciati, gruppi intonativi, gruppi intermedi, sillabe, … Sebbene la prosodia sia, per definizione,
sovrasegmentale, le analisi prosodiche spesso considerano il fonema come l’unità minima di
descrizione dove misurare le variazioni ritmiche e gli eventi intonativi. La famiglia dei fenomeni
prosodici include le features o tratti sovrasegmentali di intonazione, accento, ritmo e velocità di
eloquio, le cui variazioni sono rilevanti per esprimere la funzione delle diverse unità prosodiche: le
sillabe prominenti in una parola saranno marcate dall’accento, un contorno intonativo discendente
marcherà la conclusione di una frase, una velocità di eloquio più marcata e un’intonazione più bassa
caratterizzano una parentetica, e così via …
Questi tratti prosodici sono realizzati fisicamente nel parlato in termini di variazioni di parametri
acustici. L’analisi acustico-fonetica identifica i seguenti correlati fonetici della prosodia: la
frequenza fondamentale (f0), i cambiamenti di durata segmentale, le pause, l’altezza e la qualità
della voce.
In base allo scopo della ricerca in cui il compito di annotazione si realizza, i fenomeni prosodici
possono essere individuati in un corpus di parlato per mezzo di semplici segni diacritici nella
trascrizione ortografica, per mezzo di etichette che classificano i contorni intonativi ed i limiti delle
unità di descrizione (in base alla teoria fonologica adottata) o per mezzo di misurazioni dettagliate
dei parametri acustico-fonetici.
Le assunzioni di base che operiamo per individuare i requisiti dell’annotazione prosodica sono le
seguenti:
•
l’annotazione dovrebbe prendere in considerazione almeno la durata segmentale, le pause e
l’intonazione;
•
l’annotazione dovrebbe considerare il ruolo strutturale della prosodica e fornire metodologie per
delimitare le unità prosodiche (per esempio, marcando i phrase boundaries)
•
l’annotazione dovrebbe consentire sia descrizioni fenomenologiche dettagliate che descrizioni
funzionali più astratte, fornendo livelli distinti per l’annotazione fonetica e fonologica.
2.2
Il “meta-schema” di MATE per l’annotazione prosodica.
Nessuno degli schemi di annotazione prosodica esistenti è in grado di soddisfare autonomamente
tutti i requisiti identificati nel paragrafo precedente. Questo è dovuto principalmente al fatto che
ciascuno schema è stato definito per rispondere ad esigenze specifiche di annotazione prosodica a
partire da punti di vista teorici e pratici che tendevano a privilegiare uno o l’altro degli aspetti della
descrizione prosodica. Questa peculiarità è stata messa in luce nel progetto MATE, nel cui ambito si
è realizzata l’integrazione di un insieme di schemi originari (“meta-schema”) con l’obiettivo di
E-150
coprire quanto più possibile l’ambito di annotazione prosodica e di soddisfare i requisiti che
abbiamo introdotto nel paragrafo 2.1. Il meta-schema di MATE viene descritto qui di seguito e
verrà adottato per la descrizione prosodica in SI-TAL.
2.2.1 Il “meta-schema”
Nell’ambito del progetto europeo MATE la proposta di annotazione per il livello prosodico
prevede un “meta-schema” che consente di integrare diverse convenzioni di notazione e di
introdurre convenzioni specifiche per il dominio applicativo scelto. Il meta-schema è
sufficientemente dettagliato e flessibile da consentire il riempimento parziale delle strutture previste
e per integrare schemi di annotazione diversi. La sua definizione riflette sia la distinzione tra unità
prosodiche e fenomeni prosodici che la natura multilivello della ricerca prosodica, il fatto cioè che
la prosodia può essere studiata sia da un punto di vista fonetico che fonologico.
Il “meta-schema” di MATE per la prosodia è una struttura di annotazione a quattro livelli, in cui
è possibile render conto dei requisiti descritti nel paragrafo precedente. I livelli sono i seguenti:
1. Trascrizione fonetica: questo livello è concepito per rappresentare i segmenti fonetici, ma
anche per trascrivere altri fenomeni correlati agli aspetti segmentali della prosodia (in
particolare le pause e le unità inferiori alla parola, per esempio le sillabe).
2. Rappresentazione fonetica dell’intonazione: questo livello consente l’annotazione fonetica
dei fenomeni intonativi, dove vengono descritte in dettaglio le curve fondamentali di
frequenza e i possibili correlati acustici dell’intonazione (per esempio l’energia).
3. Rappresentazione fonologica dell’intonazione: consente agli schemi che annotano
l’intonazione da un punto di vista fonologico, in termini di rappresentazioni funzionali, di
annotare la funzione degli eventi intonativi rilevanti rispetto alle unità prosodiche.
4. Segmentazione prosodica: consente di segmentare gli enunciati in termini di unità
prosodiche di alto livello (per esempio, in termini di gruppi intonativi).
I quattro livelli non rappresentano una gerarchia rigida: i due livelli fonetici, destinati alla
segmentazione in fonemi e alla descrizione di f0, sono direttamente allinenati con il segnale vocale
e in questo senso si possono considerare livelli di base. I due livelli fonologici descrivono gli eventi
linguisticamente rilevanti dell’intonazione, mantenendo una relazione sia con i livelli di base che
con altre unità linguistiche. Si possono così stabilire diversi legami tra i livelli di descrizione: per
esempio, è possibile associare un evento intonativo come l’accento sia alla parola (livello
ortografico) che alla sillaba o vocale in cui l’accento si realizza (livello di trascrizione fonetica),
che alla configurazione corrispondente di ‘pitch movement’ (livello di descrizione fonetica di f0).
La figura seguente mostra i possibili legami tra i livelli:
segmentazione prosodica
rappresentazione fonologica dell’intonazione
trascrizione ortografica
trascrizione fonetica
rappresentazione fonetica dell’intonazione
file di voce
E-151
Nell’uso reale di questo schema di annotazione, i livelli e i loro legami possono essere
totalmente o parzialmente specificati. Per esempio, in un contesto di studio della prosodia orientato
alla tecnologia linguistica, si potrà adottare un approccio maggiormente orientato al segnale, mentre
uno studio più linguisticamente orientato potrà privilegiare i livelli più alti di descrizione
fonologica.
2.2.2 Schemi di annotazione rappresentabili nel “meta-schema”
Il ‘meta-schema’ descritto nel paragrafo precedente e realizzato nel progetto MATE, consente di
rappresentare in un formato comune diversi schemi di annotazione. In particolare per ciascun livello
il meta-schema supporta i seguenti schemi
1) Trascrizione fonetica : SAMPA ([Wells et al. 1992])
2) Rappresentazione fonetica dell’intonazione: INTSINT ([Hirst, 1991, 1994; Hirst & Di
Cristo, 1998]; D1.1A), IPO ([t’Hart et al., 1990])
3) Rappresentazione fonologica dell’intonazione: ToBI (‘Tones’layer) ([Silverman et al.
1992]; D1.1A )
4) Segmentazione prosodica: ToBI (‘Break-Indices’ layer)
Per ciascun livello, almeno uno degli schemi esistenti deve essere adattato alla rappresentazione
XML per poter essere integrato nel tool di MATE che sarà adottato in SI-TAL (vedi parte II, sez.
2). Ciascuno schema potrà esere utilizzato singolarmente o integrato con gli altri: per esempio, ci si
potrà riferire a SAMPA per la segmentazione fonetica e a IPO per la descrizione di f0, oppure
integrare i quattro livelli utilizzando SAMPA, INTSINT e ToBI. Per consentire questo approccio
modulare, nella seconda parte del progetto si definiranno DTD separate per ciascuna coppia livelloschema, mentre definiamo qui di seguito gli elementi e gli attributi identificati in ciascuno degli
schemi selezionati.
In primo luogo, è necessario osservare che il secondo livello, sia in IPO che in INTSINT,
presuppone una struttura interna che corrisponde a una tipica procedura a tre passi per l’annotazione
fonetica dell’intonazione: ottenere la curva f0 (elemento <f0>), stilizzarla (elementi <closecopy> e
<mome1>) ed infine etichettarla (elementi <pitmove> e <intone>). A livello di segmentazione
fonetica, un’estensione utile è rappresentata dall’elemento <sillaba>, a cui può essere subordinato
l’elemento <phone> e a cui si possono con profitto collegare le etichette intonative proprie del
livello di rappresentazione fonologica. Per i livelli 3 e 4 si introduce un singolo elemento principale:
<tobitone> per il livello 3, (<target>, <f0range>, e <repair> sono informazioni ausiliarie) e
<breakindex> per il livello 4.
La lista di elementi resi compatibili con la notazione XML è la seguente:
1) Trascrizione fonetica:
<syllable>
<phone>
2) Rappresentazione fonetica dell’intonazione:
<f0>
E-152
<closecopy> (IPO)
<pitmove> (IPO)
<momel> (INTSINT)
<intone> (INTSINT)
3) Rappresentazione fonologica dell’intonazione:
<tobitone>
<target>
<f0range>
<repair>
4) Segmentazione prosodica:
<breakindex>
Nel manuale per l’annotazione prosodica, ciascuna coppia livello:schema sarà descritta
singolarmente. Per il livello 2, al fine di evitare duplicazioni di descrizione, si fornirà una singola
descrizione dell’elemento <f0> (presente sia nello schema IPO che in INTSINT). Si noti, inoltre,
che non vi è apparentemente alcuna differenza formale tra gli elementi <closecopy> e <momel> per
la curva stilizzata, perché entrambi si realizzano in punti target sulla curva F0. La differenza
sostanziale risiede nella funzione di interpolazione tra i punti target, che è lineare per <closecopy>
e parabolica per <momel>, e nella procedura di stilizzazione (manuale nel primo caso, automatica
nel secondo).
E-153
3 Livello morfosintattico e sintattico
E-154
In questa sezione illustriamo le specifiche relative agli schemi di annotazione morfosintattica e
sintattica che verranno adottati in SI-TAL per il tema Dialoghi Annotati. Le specifiche qui illustrate
sono da intendersi come aventi carattere generale e sono passibili di ulteriori raffinamenti ed
adattamenti in base alle esigenze teoriche e pratiche che emergeranno dall’annotazione-pilota di 30
dialoghi (20 uomo-macchina e 10 uomo-uomo) prevista nella linea 1.2 del progetto. La sezione si
struttura nel modo seguente:
•
Introduzione
•
Articolazione interna dello schema di annotazione morfosintattica e sintattica
•
Specifiche relative all’annotazione morfosintattica
•
Specifiche relative all’annotazione sintattica
3.1
Introduzione
L’annotazione morfosintattica e sintattica della lingua parlata rappresentano un compito
relativamente nuovo e non banale, che è solo parzialmente sovrapponibile con l’analoga
annotazione della lingua scritta. E’ evidente che esistono delle differenze tra i modi in cui il parlato
e lo scritto sfruttano la gamma delle costruzioni grammaticali offerte dalla lingua, e tuttora abbiamo
poche prove sicure della precisa natura di queste differenze. Il linguaggio parlato, nondimeno,
manifesta dei tipi ulteriori di costruzioni grammaticali che di norma non si riscontrano nello scritto
e che necessitano di nuove strategie di annotazione. I fenomeni forse più significativi sono i
cosiddetti fenomeni di “gestione del parlato”, come le interruzioni e le correzioni, che manifestano
il fatto che il parlato è in genere prodotto senza pianificazione precedente. L’elaborazione
automatica del parlato ha bisogno di modi per distinguere tra le parole rese obsolete da interventi
successivi e le parole che le sostituiscono. Altre questioni significative da un punto di vista
strutturale più o meno specifiche del parlato sono gli elementi di discorso usati per segnalare la
forza pragmatica delle enunciazioni, la cui annotazione è di rilievo per il riconoscimento automatico
degli atti del discorso, ed i fenomeni di esitazione, la cui incidenza relativamente alla struttura
circostante è in potenza una traccia importante per l’analisi automatica. Un esempio chiarirà questi
punti:
G029: <inspirazione> va bene , ora facendo colle delle rond+ / dove sta il colle
delle rondini <pl> fai un altro mezzo cerchio sempre verso sinistra e inizia a
arri+ / inizia a arrivare verso dove sta la figura barche <pl> e fermati dove
coincide la punta piu' alta della barca <pl> con i trattini <sospiro> 6
Una rappresentazione adeguata di questa enunciazione deve mostrare, per esempio, che la
clausola iniziante con “ora facendo” è interrotta prima del suo completamento, e rifrasata dalla
clausola successiva che inizia dopo il punto di interruzione (rond+). Analogamente, deve poter
essere chiaro che il primo “inizia a” della terza linea è una falsa partenza che viene sostituita
dall’enunciazione che comincia con il secondo “inizia” .
In un caso come il seguente, invece, l’annotazione deve inoltre indicare che il ma iniziale è un tipo
di “elemento del discorso” che ha un ruolo speciale nel parlato, in questo caso quello di segnalare il
6
Le convenzioni di trascrizione adottate in questi esempi sono diverse da quelle che verranno adottate in SI-TAL e
sono descritte in questo deliverable, parte I, sez. 3.
E-155
modo in cui questa enunciazione è intesa connettersi all’enunciazione precedente prodotta dall’altro
parlante. Questo tipo di elementi, pur se ricorrenti anche nella lingua scritta, sono di gran lunga più
frequenti e variegati nella lingua parlata, e per questo motivo è stata spesso segnalata l’esigenza di
prevedere delle categorie ad hoc per classificare questa classe di elementi lessicali (vedi oltre, sez.
3.2.2.4).
F024: ma non lo posso fare perche' l'ho fatto da+ ehm nell'altra direzione
quindi va verso la destra del foglio <pb> il cerchio e' rivolto verso la #<G025>
destra del foglio #
G025: #<F024> no deve # andare verso la sinistra del foglio <pb> cancella e vai
verso sinistra <P> <RUMORE> <f.vocale> <RUMORE> hai fatto ?
Infine, è necessario integrare in qualche modo i fenomeni di esitazione, come le pause
vocalizzate ed i frammenti di parola (ehm e da+ dell’esempio precedente). Per esempio, se le
esitazioni occorrono di frequente dove i costituenti sono interrotti e seguiti da una correzione, è
necessario decidere in modo consistente se gli elementi di esitazione devono essere trattati
grammaticalmente come parte del costituente interrotto, come parte di quello che lo sostituisce, o
come costituente separato e distinto da entrambi.
A prescindere dalle singole decisioni di rappresentazione adottate, è evidente che qualsiasi
schema di annotazione che debba essere applicato al parlato deve confrontarsi con questo tipo di
fenomeni. Uno schema di annotazione esplicito deve dunque specificare delle modalità di
trattamento consistenti e, soprattutto, prevedibili, in modo che occorrenze simili di uno stesso
fenomeno siano trattate in modo predicibile, e che annotatori diversi che utilizzano lo schema per
annotare lo stesso corpus producano lo stesso tipo di analisi. E’ inoltre opportuno che lo schema di
annotazione tenga conto dei più recenti sviluppi in materia e valuti le strategie di rappresentazione
adottate per fenomeni simili. Infine, è necessario che vengano fissati dei limiti chiari relativamente
al tipo di fenomeni rappresentati ad un dato livello di descrizione linguistica, ovvero che livelli di
informazione diversa non vengano confusi.
3.1.1 Il metodo: approccio normalizzante vs. non-normalizzante
Come si è illustrato nel capitolo relativo allo stato dell’arte, gli approcci all’annotazione del
linguaggio parlato possono essere utilmente distinti tra approcci normalizzanti e non normalizzanti.
Il primo approccio interviene sulla trascrizione eliminando tutti i fenomeni tipici del parlato che
causerebbero il fallimento dei programmi di analisi automatica, sviluppati per la lingua scritta. In
questo modo, il testo parlato viene emendato di tutti i fenomeni di “rumore” e ricondotto ad una
versione scritta e, in alcuni casi particolarmente complessi, ad una vera e propria parafrasi del testo
originario. Tutti i fenomeni di disfluenza sono considerati quindi come fondamentalmente estranei
all’annotazione grammaticale del parlato. La maggioranza degli schemi di annotazione adottano
questo approccio, da PENN TREEBANK all’INTERNATIONAL CORPUS OF ENGLISH, a CHILDES.
L’approccio alternativo consiste invece nell’estendere l’annotazione al trattamento di materiale
disfluente e di una quantità di fenomeni non standard. Questo è l’approccio adottato per esempio da
CHRISTINE e MATE.
Se da una parte l’approccio normalizzante è troppo “ingegneristico”, l’approccio nonnormalizzante corre il rischio di essere linguisticamente non informativo, dal momento che, almeno
in alcuni casi, l’annotazione possibile del testo diventa così generica da essere del tutto vacua.
L’approccio illustrato qui di seguito sembra realizzare un giusto compromesso tra le due strategie: i)
materiale non standard e disfluenze vengono segnalate a mano in sede di trascrizione ortografica
emendata (vedi sotto, par. 3.1.3); ii) tutto o parte di questo materiale viene poi annotato ad alcuni
livelli di analisi linguistica soltanto. Ad esempio, il livello di analisi morfologica, generalmente
E-156
condotto in modo del tutto automatico, presuppone la disponibilità di parole in forma standard, che
dovranno quindi essere annotate al livello di trascrizione emendata (ed associate alle forme non
standard realmente attestate). Il livello di costituenti immediati, d’altra parte, si applica anche a
sintagmi parziali, forme di anacoluto e altri esempi ancora di sintassi markoviana. Questo è utile, ad
esempio, per poter condurre un’analisi di quali tipi di sintagma vengono più comunemente ripetuti o
sospesi.
L’annotazione a livello di trascrizione emendata avverrà manualmente, sulla base della
trascrizione ortografica che costituisce il livello standard di input per tutte i livelli di annotazione
linguistica in SI-TAL. Le annotazioni a livello morfosintattico e sintattico saranno invece eseguite
automaticamente e successivamente corrette a mano.
3.1.2 Articolazione interna dello schema di annotazione morfosintattica e sintattica
L’annotazione morfosintattica e sintattica si distribuisce su due livelli distinti:
•
annotazione a livello morfosintattico o grammaticale, delle parti del discorso degli elementi
lessicali e dei tratti morfosintattici associati;
•
annotazione sintattica, a livello di costituenti immediati o chunks.
A questi due livelli, che rappresentano l’annotazione linguistica vera e propria, si associa un
terzo livello, cosiddetto di Trascrizione Emendata (vedi sezione 3.1.3), contenente l’eventuale
annotazione di fenomeni di disfluenza la cui annotazione sia necessaria per permettere l’analisi
automatica del testo in input. Il livello di Trascrizione Emendata costituisce, per così dire, una fase
di pre-elaborazione del testo, che deve essere via via adattata alle peculiarità dei sistemi di
annotazione automatica, da una parte, e dall’altra a quelle del testo dialogico.
Il diagramma in Fig. 3.1 illustra l’insieme di relazioni che sussiste tra i livelli di annotazione
morfosintattica. Tutti i livelli presuppongono direttamente o indirettamente il documento contenente
la trascrizione ortografica, eventualmente emendata (TE), a sua volta collegato con il testo grezzo
(TO). In particolare, il livello di analisi sintattica a costituenti immediati (AS) fa riferimento al
documento contenente l’analisi morfosintattica (AM), dove la nozione di unità morfologica ha
preso il posto di quella ortogonale di unità fonologica.
TOt
-g
T-E
AM
AS
C-I
Fig. 3.1: Struttura logica dell’annotazione morfosintattica
E-157
Questi tre livelli saranno mantenuti anche fisicamente distinti attraverso l’annotazione distribuita
in tre files separati per ogni dialogo annotato7 . Proceduralmente, tuttavia, l’annotazione a livello
morfosintattico precede quella a livello sintattico e ne è presupposta.
La sintassi del linguaggio di annotazione XML sembra particolarmente duttile sotto questo
aspetto. L’informazione relativa ai vari livelli di annotazione può essere distribuita in documenti
logicamente e fisicamente separati, ciascuno dei quali strutturato autonomamente in termini di unità
pertinenti. Tutti questi documenti puntano direttamente o indirettamente ad un unico documento
matrice, quello del dato linguistico non strutturato, che varia naturalmente a seconda del medium
prescelto. Nel seguito di questo capitolo illustreremo le caratteristiche di tre di questi documenti:
quello relativo alla trascrizione ortografica “emendata”, quello morfosintattico, ed infine quello
sintattico per l’analisi a costituenti immediati.
Questa architettura presenta una serie di vantaggi. In primo luogo, la modularità dei livelli li
rende unità operativamente autonome: nel caso un utente disponga di un testo già annotato a livello
morfosintattico, l’annotazione sintattica può essere eseguita partendo da quel testo in input, senza
dover necessariamente ripetere l’assegnazione delle categorie grammaticali. La distribuzione
dell’informazione su più documenti indipendenti consente inoltre di annotare il testo a livelli
graduali di astrazione. Infine, la complementarità multidimensionale dell’informazione contenuta
nei vari livelli sembra realizzare un buon compromesso tra un approccio normalizzante, che
presume di sapere troppo, ed un’annotazione del tutto superficiale, in cui si finirebbe per dire troppo
poco. Da una parte un’analisi a stati finiti quale quella a costituenti non ricorsivi è in grado di
riconoscere un’anomalia locale a livello di struttura sintattica, ad esempio dovuta ad un’interruzione
o ad una cattiva trasmissione del segnale, senza che l’anomalia venga a ripercuotersi sull’intera
struttura dell’enunciato. D’altra parte, l’annotazione a livello morfosintattico dovrebbe essere in
grado di garantire quel livello di base di analisi del testo, che prescinde da problemi di disfluenza.
In questo modo ci sembra possibile evitare in linea di principio quella confusione tra non
conformità ad una norma sintattica ideale ed extra-grammaticalità che sembra informare buona
parte degli approcci contemporanei all’analisi linguistica del parlato, riportando così la nozione di
grammaticalità alla sua natura di gradiente.
3.1.3 Trascrizione emendata
Emendare una trascrizione implica l’identificazione e l’annotazione di tutta una serie di
fenomeni tipici del parlato che in un modo o nell’altro sono estranei all’annotazione morfosintattica
e sintattica in senso stretto e potrebbero pregiudicare la performance dei sistemi di analisi
automatica. Da quanto sostenuto nei paragrafi precedenti dovrebbe essere chiaro che il concetto di
“Trascrizione Emendata” avanzato in questa sede non deve essere confuso con l’approccio
cosiddetto normalizzante all’annotazione del parlato. In quest’ultimo caso, infatti, tutti i fenomeni
tipici del parlato vengono eliminati o standardizzati, producendo una versione del testo parlato il più
simile possibile ad una sua variante scritta. Nel caso della trascrizione emendata, invece, si fornisce
un luogo per annotare alcuni fenomeni soltanto che non sono di stretta pertinenza della
morfosintassi ma che può essere comunque utile annotare. E’ questo il caso, ad esempio, delle
sequenze di ripetizione, delle correzioni, o degli usi non standard. Questo approccio ha due
motivazioni fondamentali. La prima è la convinzione che si debba mantenere al minimo
indispensabile ogni intervento normalizzante sul testo parlato: idealmente, il testo in input non
dovrebbe essere suscettibile di nessuna modifica; in pratica, tuttavia, è noto che alcune modifiche si
7
Come già accennato, gli aspetti relativi alla rappresentazione in XML dell’annotazione linguistica saranno
affrontati nella linea 1.2 del progetto.
E-158
rendono indispensabili o quanto meno raccomandabili per evitare un carico eccessivo in fase di
‘post-elaborazione’. Il secondo motivo è che la trascrizione emendata è intesa come una fase
provvisoria e di passaggio per arrivare ad un’analisi automatica robusta ed efficace del testo parlato.
E’ evidente, infatti, che i sistemi di analisi automatica esistenti, essendo stati sviluppati ed affinati
per l’analisi di testi scritti, non saranno in grado di trattare un testo rumoroso come quello parlato in
modo completamente soddisfacente, ma necessiteranno di un lavoro di adattamento. In quest’ottica,
il livello di annotazione della trascrizione emendata rappresenta una sorta di fase di transizione in
cui i fenomeni di disturbo vengono normalizzati e classificati per poter poi intervenire,
riadattandoli, sui sistemi di annotazione automatica.
I fenomeni che si prevede possano richiedere un intervento di normalizzazione sono i seguenti:
1 frammenti di parole, risultanti da correzioni, interruzioni ed in genere da enunciazioni
incomplete (per esempio, quando un parlante viene interrotto o si interrompe a metà parola, e
questa resta “sospesa”):
(1a)
ma # non lo posso fare perché l'ho fatto da+ <ehm> nell'altra direzione
in altri casi i frammenti di parola risultano da una trascrizione imperfetta, vuoi per imperfezioni
della registrazione, vuoi per difficoltà nella comprensione da parte del trascrittore.
(1b)
prefer- il secondo
(dal contesto non si riesce a stabilire univocamente il completamento: potrebbe essere
"preferISCO", "preferIREI"...)
In questi casi la normalizzazione in sede di trascrizione emendata può consistere o
nell’eliminazione del frammento di parola o nella sua standardizzazione verso la forma più
probabile. Entrambe le scelte hanno pro e contro. Nel primo caso, l’eliminazione del frammento
può comportare un fallimento dell’analisi al successivo stadio di analisi sintattica. Nel secondo
caso, la standardizzazione può implicare un alto grado di arbitrarietà.
2 parole mal pronunciate per le quali non è possibile recuperare la forma standard intesa:
(2)
aloa voglio andare da Roma a Torino
anche in questo caso valgono le considerazioni fatte per l’esempio precedente.
3 elementi lessicali omessi, vuoi per obbedienza a regole non standard (vedi punto 4), vuoi per
imperfezioni della trascrizione:
in questi casi si può ritenere opportuno reinserire la forma omessa, se dal contesto è
sufficientemente chiaro quale essa sia.
4 usi non standard, genericamente descrivibili come forme lessicali non standard (per esempio,
forme dialettali), oppure costruzioni sintattiche non standard. Queste ultime si realizzano spesso
come omissioni di uno o più elementi lessicali (vedi punto precedente).
E-159
(4)
ora prosegui diritto vai diritto e arriva praticamente all’inizio della
figura fiume e inizi a risalire verso ‘sta figura
poiché l’analizzatore automatico si basa su un lessico standard, la forma dialettale ‘sta non
potrebbe essere analizzata. In casi come questo il livello di trascrizione emendata può servire a
normalizzare la forma all’unico scopo di consentire l’analisi automatica dell’enunciato; la forma
originaria resta comunque registrata nella trascrizione ortografica corrispondente.
Le categorie di problemi e gli esempi riportati sopra sono solo illustrativi di classi di fenomeni
che possono richiedere un intervento di normalizzazione. Poiché l’identificazione e la
classificazione dei fenomeni di disfluenza dipende strettamente dal tipo di dati da una parte, e dal
tipo di risposta dei meccanismi di annotazione automatica di fronte ad un dato rumoroso, le
specifiche relative a questo sotto-livello saranno sviluppate durante la Linea 1.2 del progetto 8 .
Il livello di Trascrizione Emendata costituisce anche la sede adatta per la rappresentazione di una
serie di fenomeni che spesso vengono annotati a livello di annotazione morfosintattico o sintattico
ma che a nostro avviso non concernono l’annotazione della struttura grammaticale della lingua. E’
questo il caso, ad esempio, dei fenomeni di ripetizione, false partenze, e delle sequenze di
correzione (vedi parte II, sez. 2). Si consideri l’esempio seguente:
(5)
F080: non sto su+ / i trattini non stanno sotto la figura ambulante
<pb> stanno #
in questo esempio, il segmento interrotto non sto su+ rappresenta una cosiddetta “falsa
partenza”: il parlante comincia la sua enunciazione ma poi si interrompe e ricomincia la produzione
con una struttura diversa. La sequenza che segue il punto di interruzione (segnalato mediante il
simbolo / ) è intesa dal parlante come una correzione della sequenza precedente.
Se è sicuramente utile analizzare la struttura sintattica delle sequenze di correzione o di
ripetizione, l’indicazione che una certa struttura grammaticale occorre nel particolare contesto di
una più ampia struttura di correzione o di ripetizione non è di stretta pertinenza dell’annotazione
morfosintattica. D’altra parte, è utile mantenere traccia del contesto di occorrenza di certe strutture.
Per esempio, per attività come il riconoscimento del parlato può essere utile segnalare le ripetizioni,
di modo che queste non entrino a far parte del modello del dialogo e quindi non disturbino il
funzionamento o il training di un modello markoviano di transizioni di categoria. Oppure, può
essere utile recuperare l’informazione del fatto che una struttura b) in realtà sovrascrive la struttura
a), così che un sistema di estrazione automatica dell’informazione recuperi solo l’informazione
“corretta”, ignorando quella che lo stesso parlante ha inteso e segnalato come errata. Gli stessi
termini usati per descrivere quest’ultimo fenomeno tuttavia evidenziano come l’annotazione di
questo tipo di informazione abbia in realtà molti punti in comune con il livello in cui vengono
annotate le caratteristiche pragmatiche del dialogo, ovvero le intenzioni comunicative con cui certe
strutture grammaticali vengono prodotte (in questo caso, correggere un’enunciazione precedente).
Per questi motivi l’approccio raccomandato in SI-TAL consiste nel non annotare questi
fenomeni a livello morfosintattico e sintattico in senso stretto, ma di fornire un luogo, il livello di
Trascrizione Emendata, dove questi fenomeni possano essere rappresentati. Si prevede dunque che
8
Come previsto dal Capitolato Tecnico.
E-160
almeno tre classi di fenomeni possano essere rappresentati al livello di Trascrizione Emendata:
ripetizioni, false partenze e sequenze di correzione.
1. Ripetizioni
Gli elementi ripetuti possono essere segnalati identificando un segmento corrispondente alla
porzione di testo che viene ripetuta, marcato mediante l’attributo “repetition” per l’attributo “type”:
(6)
G091: <segment type=”repetition”> va bene </segment> va bene allora passa
<pb> passa <pl> tra
(7)
G105: come se stessi facendo <segment type=”repetition”> un mezzo
</segment> un mezzo otto <pb> una Esse rovesciata , come la vuoi chiamare
In pratica, le ripetizioni sono trattate come un caso particolare di false partenze (vedi sotto).
2. False partenze e sequenze di correzione
Le sequenze di correzione o false partenze occorrono quando un parlante “interrompe” il
processo di produzione interrompendo la costruzione del costituente corrente, ritorna ad un punto
precedente della stessa enunciazione e ricomincia da capo la formulazione dell’enunciato.
L’identificazione della falsa partenza è relativamente semplice, mentre di più difficile
attribuzione è l’identificazione della correzione. Per esempio, nel caso seguente mentre è non
problematico identificare il segmento non sto su+ come una falsa partenza, non è chiaro stabilire
l’estensione della correzione: se tutta l’enunciazione seguente o solo una parte di essa. Per questo
motivo, e poiché l’attribuzione del valore di correzione ad una enunciazione implica considerazioni
di carattere pragmatico, preferiamo qui identificare soltanto la porzione corrispondente alla falsa
partenza. La porzione di testo che sovrascrive la falsa partenza viene inferita per default.
(8)
F080: <segment type=”falsestart”> non sto su+ </segment> / i trattini non
stanno sotto la figura ambulante <pb> stanno #
(9)
G087: <segment type=”falsestart”> vicino c'e' una paro+ </segment> /
vicino c'e' una figura che si chiama abeti ?
(10)
G103: <segment type=”falsestart”> ce+ c'era una </segment> / c'e' <segment
type=”repetition”> una </segment> una figura sopra all' albergo che si
chiama discoteca Zaza' ? </turn>
Il termine “falsa partenza” è interpretato in senso più ampio di quanto il nome lascerebbe
supporre, andando a coprire anche i fenomeni di interruzione nella formulazione di un costituente in
posizione intermedia di enunciazione:
(11)
allora vai <segment type=”falsestart”> con questi tratti+ con questi di
</segment> con questo punto tratteggiato fino ad albergo
E-161
Le esatte modalità di rappresentazione verranno meglio definite nella linea 1.2 in base ad una
classificazione dettagliata dei fenomeni che potrà essere effettuata solo a partire dall’osservazione
dei dati.
3.2
Specifiche di annotazione per il livello morfosintattico
L’annotazione morfosintattica consiste nell’assegnazione di un’etichetta di categoria
morfosintattica o grammaticale ad ogni elemento lessicale del corpus, con l’aggiunta dei relativi
tratti morfosintattici. L’insieme delle etichette usate per classificare gli elementi lessicali è noto
come tagset. A tale scopo è necessario un tagset di riferimento, ovvero l’insieme delle categorie
necessarie per l’analisi morfosintattica di un corpus di italiano parlato. La lista delle etichette,
insieme alle loro definizioni e ai criteri necessari per applicarle ad un corpus prende il nome di
schema di annotazione. Le pagine seguenti descrivono lo schema di annotazione morfosintattica per
l’annotazione del corpus di italiano parlato in SI-TAL. L’annotazione del corpus avverrà in modo
automatico, ma l’annotazione sarà controllata manualmente, sia in fase di pre- che di postelaborazione. Pertanto, i criteri di annotazione espressi concernono esclusivamente la fase di preannotazione del corpus (vedi sez. 3.1.3), e la fase di controllo, per la disambiguazione manuale
laddove l’annotazione automatica fallisca o produca più di un’analisi possibile. L’operazione di
annotazione implica anche l’assegnazione di un lemma corrispondente ad ognuna delle forme
etichettate.
Nei paragrafi successivi verranno illustrate le caratteristiche generali e specifiche del tagset per
l’annotazione morfosintattica in SI-TAL.
3.2.1 Il tagset per l’annotazione morfosintattica
Il tagset per l’annotazione morfosintattica in SI-TAL si basa sul tagset di ILC/PAROLE,
opportunamente esteso e modificato allo scopo di meglio rappresentare i fenomeni tipici del parlato.
La scelta di utilizzare il tagset ILC/PAROLE come punto di partenza assicura il soddisfacimento
della maggior parte dei requisiti generali richiesti ad uno schema di annotazione.
Il tagset di ILC/PAROLE soddisfa infatti il requisito di conformità agli standard esistenti
essendo conforme alle raccomandazioni di EAGLES. Essendo sviluppato per l’italiano assicura
inoltre un alto grado di copertura. Lo schema di annotazione è stato applicato in altri progetti,
assicurando così la sua usabilità e portabilità a domini di applicazione diversi, e ad un numero
considerevole di lingue diverse. Dalla conformità alle specifiche di EAGLES derivano le
caratteristiche di flessibilità e modularità. Infine, precedenti esperienze di annotazione automatica
assicurano la portabilità del tagset all’annotazione semi-automatica. Vi sono inoltre importanti
motivi pratici che spingono verso l’adozione in SI-TAL di una versione modificata ed estesa del
tagset ILC/PAROLE. Il primo è il fatto che il formato di annotazione è compatibile con i requisiti di
formato di input del sistema automatico di analisi sintattica (Chunker, vedi sez. 3.3.2) che verrà
usato per l’annotazione sintattica del corpus. Il secondo è che in tal modo le specifiche
morfosintattiche per il tema Dialoghi Annotati sono armonizzate con quelle del tema Treebank, che
adotta lo stesso tagset per l’annotazione morfosintattica del corpus. Questo costituisce un
importante punto di contatto e consente, negli usi futuri di SI-TAL, la comparabilità delle risorse
per scopi applicativi e di ricerca.
Il tagset ILC/PAROLE originario, pur essendo uno schema sviluppato ed applicato
esclusivamente all’analisi di testi scritti, per le particolari caratteristiche di formato si presta ad
essere modificato e adattato per rappresentare i fenomeni del parlato, che ovviamente non sono
E-162
adeguatamente trattati nella versione originaria dello schema. Per questo motivo, lo schema è stato
ampliato e modificato sulla base delle pratiche correnti e dell’esempio dei più recenti sforzi in
materia di annotazione del parlato, in particolare il progetto CHRISTINE (vedi parte II, cap. 2). E’
importante notare tuttavia come le modifiche apportate consistano essenzialmente in ampliamenti
dello schema mediante l’introduzione di categorie aggiuntive o sottocategorie di categorie già
esistenti; in tal modo infatti è assicurata la sostanziale uniformità dello schema con la sua
controparte “scritta”, e lo stesso tagset può essere applicato indifferentemente alla lingua parlata o
alla lingua scritta, con vantaggi evidenti per la portabilità dello schema e per gli usi successivi. Da
questo punto di vista l’annotazione morfosintattica in SI-TAL percorre un percorso simile a quello
che, per l’inglese, ha condotto allo sviluppo del corpus CHRISTINE a partire dal corpus SUSANNE:
come in questo caso, uno schema di annotazione morfosintattica in uso per lo scritto (in Treebank)
viene adattato ed esteso alla rappresentazione del parlato (in Dialoghi), attraverso stadi successivi di
raffinamento.
Nei paragrafi successivi vengono illustrate le specifiche morfosintattiche di base, comuni tanto
alla versione del tagset per lo scritto che a quella per il parlato. Nella sezione 3.2.2 verranno invece
presentate le estensioni relative alla rappresentazione dei principali fenomeni del parlato.
3.2.1.1 Formato di annotazione
Il formato di annotazione consiste in una stringa di caratteri per ognuna delle categorie
sintattiche. Ogni carattere alfabetico rappresenta il valore di un attributo. I valori degli attributi
hanno delle posizioni fisse e predefinite all’interno della stringa. Per esempio, il valore relativo alla
categoria morfosintattica è sempre in posizione iniziale ed è marcato mediante una lettera
maiuscola. Il carattere @ separa l’indicazione della categoria morfosintattica dai caratteri che
indicano i tratti morfosintattici, anch’essi espressi in lettere maiuscole. Riportiamo qui di seguito le
diverse categorie previste, insieme al simbolo che le rappresenta.
1. Nomi (S)
2. Verbi (V)
3. Aggettivi (A)
4. Pronomi (P)
5. Predeterminatori (T)
6. Determinatori (D)
7. Articoli (R)
8. Avverbi (B)
9. Preposizioni (E)
10. Congiunzioni (C)
11. Numerali (N)
12. Interiezioni (I)
13. Punteggiatura (@@)
14. Abbreviazioni (SA)
15. Classe Residua (X)
E-163
3.2.1.2 Inventario delle etichette ed esempi
Nei paragrafi successivi elenchiamo le etichette del tagset, per ognuna delle categorie sintattiche.
La prima colonna della tabella contiene l'etichetta nel formato di annotazione, la seconda contiene
la descrizione corrispondente e la terza un esempio di applicazione. Una legenda degli attributi e
valori è riportata alla fine della sezione.
3.2.1.2.1
Nomi (S)
Il tagset distingue tra nomi comuni (S), nomi propri (SP) e nomi stranieri (SW). Se i nomi si
trovano in locuzione, la lettera L è aggiunta prima del simbolo @. I tratti morfosintattici, che
seguono il simbolo @, sono espressi in posizioni fisse:
1. la prima posizione dopo il simbolo @ è riservata per la specificazione del genere (M =
maschile, F = femminile, N = comune)
2. la seconda posizione dopo il simbolo @ è riservata per la specificazione del numero (S =
singolare, P = plurale, N = invariato)
Etichetta
S@MS
S@MP
S@MN
S@FS
S@FP
S@FN
S@NS
S@NP
S@NN
SL@MS
SL@MP
SL@MN
SL@FS
SL@FP
SL@FN
SL@NS
SL@NP
SL@NN
SP@NN
SPL@NN
SW@MN
SW@FN
SW@NN
SWL@NN
Descrizione
nome comune, maschile, singolare
nome comune, maschile, plurale
nome comune, maschile, invariato
nome comune, femminile, singolare
nome comune, femminile, plurale
nome comune, femminile, invariato
nome comune, comune, singolare
nome comune, comune, plurale
nome comune, comune, invariato
nome comune in locuzione, maschile, singolare
nome comune in locuzione, maschile, plurale
nome comune in locuzione, maschile, invariato
nome comune in locuzione, femminile, singolare
nome comune in locuzione, femminile, plurale
nome comune in locuzione, femminile, invariato
nome comune in locuzione, comune, singolare
nome comune in locuzione, comune, plurale
nome comune in locuzione, comune, invariato
nome proprio, comune, invariato
nome proprio in locuzione, comune, invariato
nome straniero, maschile invariato
nome straniero, femminile invariato
nome straniero, comune, invariato
nome straniero in locuzione, comune, invariato
E-164
Esempio
libro
libri
re, caffè (il/i)
casa
case
attività (la/le)
insegnante (l’/la)
insegnanti (gli/le)
sosia (il/la, i/le)
Paolo, Roma, Alpi,
weekend, software
3.2.1.2.2
Verbi (V)
I tratti morfosintattici relativi alla classe dei verbi sono riportati, come d’uso, dopo il simbolo @.
Per quanto riguarda la posizione in cui i tratti sono rappresentati ed i simboli usati per la
rappresentazione, dobbiamo distinguere tra forme verbali infinite e forme verbali finite.
•
Per le forme infinite, la prima posizione dopo il simbolo @ serve per specificare il modo
verbale. Valori possibili sono:
G (gerundio)
F (infinito)
Ad esempio:
•
andando
V@G
andare
V@F
Per le forme finite, sono previste quattro posizioni:
1. prima posizione: numero (S = singolare, P = plurale)
2. seconda posizione: persona (1, 2, 3)
3. terza posizione: modo del verbo (I = indicativo, C = congiuntivo, D = condizionale, M =
imperativo)
4. quarta posizione: tempo del verbo (P = presente, F = futuro, I = imperfetto, R = passato)
Ad esempio, l’etichetta V@S1II associata con una forma verbale come viaggiavamo si legge,
da destra verso sinistra, come “imperfetto indicativo prima persona singolare”.
• Per le sole forme participiali, abbiamo le seguenti convenzioni:
1. prima posizione: genere (M = maschile, N = femminile, N = comune)
2. seconda posizione: numero (S = singolare, P = plurale)
3. terza posizione: modo (P = participio)
4. quarta posizione: tempo (presente, passato, ecc.)
L’etichetta V@NPPP (amanti) si legge quindi “presente participio, plurale comune”.
Etichetta
V@G
V@GY
V@F
V@FY
V@S1IP
V@S2IP
Descrizione
gerundio presente
gerundio presente, con clitico
infinito presente
infinito presente, con clitico
presente indicativo, 1 persona singolare
E-165
Esempio
ballando
ballandoci
ballare
ballarci
ballo
balli
V@S3IP
V@P1IP
V@P2IP
V@P3IP
V@S1IF
V@S2IF
V@S3IF
V@P1IF
V@P2IF
V@P3IF
V@S1II
V@S2II
V@S3II
V@P1II
V@P2II
V@P3II
V@S1IR
V@S2IR
V@S3IR
V@P1IR
V@P2IR
V@P3IR
V@S1CP
V@S2CP
V@S3CP
V@P1CP
V@P2CP
V@P3CP
V@S3CPY
presente indicativo, 1 persona plurale
presente indicativo, II persona plurale
presente indicativo, III persona plurale
futuro indicativo, I persona singolare
futuro indicativo, II persona singolare
futuro indicativo, III persona singolare
futuro indicativo, I persona plurale
futuro indicativo, II persona plurale
futuro indicativo, III persona plurale
imperfetto indicativo, I persona singolare
imperfetto indicativo, II persona singolare
imperfetto indicativo, III persona singolare
imperfetto indicativo, I persona plurale
imperfetto indicativo, II persona plurale
imperfetto indicativo, III persona plurale
passato indicativo, I persona singolare
passato indicativo, II persona singolare
passato indicativo, III persona singolare
passato indicativo, I persona plurale
passato indicativo, II persona plurale
passato indicativo, III persona plurale
presente congiuntivo, I persona singolare
presente congiuntivo, II persona singolare
presente congiuntivo, II persona singolare
presente congiuntivo, I persona plurale
presente congiuntivo, II persona plurale
presente congiuntivo, III persona plurale
presente congiuntivo, III persona singolare, con
clitico
V@P1CPY presente congiuntivo, I persona plurale, con clitico
V@S1CI imperfetto congiuntivo, I persona singolare
V@S2CI imperfetto congiuntivo, II persona singolare
V@S3CI imperfetto congiuntivo, II persona singolare
V@P1CI imperfetto congiuntivo, I persona plurale
V@P2CI imperfetto congiuntivo, II persona plurale
V@P3CI imperfetto congiuntivo, III persona plurale
V@S1DP presente condizionale, I persona singolare
V@S2DP presente condizionale, II persona singolare
V@S3DP presente condizionale, III persona singolare
V@P1DP presente condizionale, I persona plurale
V@P2DP presente condizionale, II persona plurale
V@P3DP presente condizionale, III persona plurale
V@S2MP presente imperativo, II persona singolare
V@S2MPY presente imperativo, II persona singolare, con clitico
V@P2MP presente imperativo, II persona plurale
V@P2MPY presente imperativo, II persona plurale, con clitico
V@NPPP presente participio, plurale invariato
V@NSPP presente participio, singolare invariato
E-166
balla
balliamo
ballate
ballano
ballerò
ballerai
ballerà
balleremo
ballerete
balleranno
ballavo
ballavi
ballava
ballavamo
ballavate
ballavano
ballai
ballasti
ballò
ballammo
ballaste
ballarono
balli
balli
balli
balliamo
balliate
ballino
dicasi
balliamoci, amiamoci
ballassi
ballassi
ballassi
ballassimo
ballaste
ballassero
ballerei
balleresti
ballerebbe
balleremmo
ballereste
ballerebbero
balla
ballaci
ballate
ballateci
amanti
amante
V@FPPR
V@FPPRY
V@MPPR
V@MPPRY
V@FSPR
V@FSPRY
V@MSPR
V@MSPRY
3.2.1.2.3
passato participio, plurale femminile
passato participio, plurale femminile, con clitico
passato participio, plurale maschile
passato participio, plurale maschile, con clitico
passato participio, singolare femminile
passato participio, singolare maschile, con clitico
passato participio, singolare maschile
passato participio, singolare maschile, con clitico
amate
amatesi
amati
amatisi
amata
amatasi
amato
amatolo
Aggettivi (A)
La classe morfosintattica degli aggettivi è contraddistinta dal simbolo A. Se gli aggettivi si
trovano in locuzione, la lettera L è aggiunta prima del simbolo @. Se si tratta di parole straniere, il
simbolo W viene aggiunto dopo il simbolo A e prima dell’eventuale simbolo L.
I tratti morfosintattici, che seguono il simbolo @, sono espressi in posizioni fisse:
1. prima posizione: genere (M = maschile, F = femminile, N = comune)
2. seconda posizione: numero (S = singolare, P = plurale, N = invariato)
3. terza posizione: grado (S = superlativo). Il grado positivo è dato come scelta di default e
pertanto non viene marcato.
Ad esempio, l’etichetta A@FSS (grandissima) si legge, da sinistra verso destra, come
“aggettivo femminile singolare, grado superlativo”.
Etichetta
A@MS
A@MP
A@FS
A@FP
A@NN
A@NS
A@NP
A@MSS
A@MPS
A@FSS
A@FPS
AL@MS
AL@MP
AL@MN
AL@FS
AL@FP
AL@FN
AL@NS
AL@NP
Descrizione
aggettivo maschile singolare
aggettivo maschile plurale
aggettivo femminile singolare
aggettivo femminile plurale
aggettivo comune invariato
aggettivo comune singolare
aggettivo comune plurale
aggettivo maschile singolare, grado superlativo
aggettivo maschile plurale, grado superlativo
aggettivo femminile singolare, grado superlativo
aggettivo femminile plurale, grado superlativo
aggettivo in locuzione maschile singolare
aggettivo in locuzione maschile plurale
aggettivo in locuzione maschile invariato
aggettivo in locuzione femminile singolare
aggettivo in locuzione femminile plurale
aggettivo in locuzione femminile invariato
aggettivo in locuzione comune singolare
aggettivo in locuzione comune plurale
E-167
Esempio
vero
veri
vera
vere
pari, dappoco, rosa
dolce
dolci
bellissimo
bellissimi
bellissima
bellissime
AL@NN
AL@MSS
AP@MS
aggettivo in locuzione comune invariato
aggettivo in locuzione maschile singolare,
superlativo
aggettivo in locuzione maschile plurale,
superlativo
aggettivo in locuzione femminile singolare,
superlativo
aggettivo in locuzione femminile plurale,
superlativo
aggettivo possessivo, maschile singolare
AP@MP
aggettivo possessivo, maschile plurale
AP@FS
aggettivo possessivo, femminile singolare
AP@FP
aggettivo possessivo, femminile plurale
AP@NN
AW@
AWL@
aggettivo possessivo, comune invariato
aggettivo straniero
aggettivo straniero in locuzione
AL@MPS
AL@FSS
AL@FPS
3.2.1.2.4
grado
grado
grado
grado
mio, tuo, suo, nostro,
proprio
miei, tuoi, suoi, nostri,
propri
mia, tua, sua, nostra,
propria
mie, tue, sue, nostre,
proprie
loro, altrui
grammatica core
vostro,
vostri,
vostra,
vostre,
Pronomi (P)
La classe morfosintattica dei pronomi è contraddistinta dal simbolo P. Il tagset distingue tra
sette tipi di pronomi (D = dimostrativo, E = esclamativo, I = indefinito, P = possessivo, Q =
personale, R = relativo e T = interrogativo). L’indicazione del tipo segue il simbolo P e precede il
simbolo @.
3. terza posizione (per i soli pronomi personali): persona (1, 2, 3).
Ad esempio, l’etichetta PQ@NP1 si legge, da sinistra verso destra, come “pronome personale,
invariato, plurale, prima persona”.
Etichetta
PD@MS
Descrizione
pronome dimostrativo, maschile singolare
PD@MP
pronome dimostrativo, maschile plurale
PD@FS
pronome dimostrativo, femminile singolare
PD@FP
pronome dimostrativo, femminile plurale
PD@NN
pronome dimostrativo, comune invariato
E-168
Esempio
questo,
quello,
stesso,
medesimo, questi, quegli, colui,
costui, …
questi, quelli, stessi, medesimi,
…
questa,
quella,
stessa,
medesima, colei, costei, …
queste,
quelle,
stesse,
medesime, …
ne, ci, vi
PD@NS
PD@NP
pronome dimostrativo, comune singolare
pronome dimostrativo, comune plurale
tale, ciò
tali, coloro, costoro
PE@MS
PE@MP
PE@FS
PE@FP
PE@NN
PE@NS
PE@NP
pronome esclamativo, maschile singolare
pronome esclamativo, maschile plurale
pronome esclamativo, femminile singolare
pronome esclamativo, femminile plurale
pronome esclamativo, comune invariato
pronome esclamativo, comune singolare
pronome esclamativo, comune plurale
quanto!
quanti!
quanta!
quante!
chi!
quale!
quali!
PI@MS
pronome indefinito, maschile singolare
PI@MP
PI@FS
pronome indefinito, maschile plurale
pronome indefinito, femminile singolare
PI@FP
PI@NN
PI@NS
PI@NP
pronome indefinito, femminile plurale
pronome indefinito, comune invariato
pronome indefinito, comune singolare
pronome indefinito, comune plurale
uno, nessuno, alcuno, ciascuno,
qualcuno, ognuno, niente, nulla,
qualcosa, altri …
alcuni
una, nessuna, alcuna, ciascuna,
qualcuna, ognuna …
alcune
altrui
tale, chiunque, chicchessia,…
tali
PP@MS
PP@MP
PP@FS
PP@FP
PP@NN
pronome possessivo, maschile singolare
pronome possessivo, maschile plurale
pronome possessivo, femminile singolare
pronome possessivo, femminile plurale
pronome possessivo, comune invariato
(il) mio, nostro, …
(i) miei, nostri
(la) mia, nostra, …
(le) mie, nostre, …
altrui, (il/la/i/le) loro
PQ@NS1
PQ@NP1
PQ@NS2
PQ@NP2
PQ@MS3
PQ@MP3
PQ@FS3
PQ@FP3
PQ@NN
PQ@NP3
PQ@NN3
pronome personale, I persona comune singolare
pronome personale, I persona comune plurale
pronome personale, II persona comune singolare
pronome personale, II persona comune plurale
pronome personale, III persona maschile singolare
pronome personale, III persona maschile plurale
pronome personale, III persona femminile singolare
pronome personale, III persona femminile plurale
pronome personale, comune invariato
pronome personale, III persona comune plurale
pronome personale, III persona comune riflessivo
(forma tonica e atona)
io, mi, me
noi, ci
tu, te, ti
voi, vi
lui, lo, egli, esso, gli
essi, li
lei, ella, essa, le, la
esse, le
ne
loro
sé, si
PR@MS
PR@MP
PR@FS
PR@FP
PR@NN
PR@NS
PR@NP
pronome relativo, maschile singolare
pronome relativo, maschile plurale
pronome relativo, femminile singolare
pronome relativo, femminile plurale
pronome relativo, comune invariato
pronome relativo, comune singolare
pronome relativo, comune plurale
quanto
quanti
quanta
quante
che, cui
(il/la) quale, chiunque, chi
(i/le) quali
PT@MS
pronome interrogativo, maschile singolare
quanto?
E-169
PT@MP
PT@FS
PT@FP
PT@NN
PT@NS
PT@NP
3.2.1.2.5
pronome interrogativo, maschile plurale
pronome interrogativo, femminile singolare
pronome interrogativo, femminile plurale
pronome interrogativo, comune invariato
pronome interrogativo, comune singolare
pronome interrogativo, comune plurale
quanti?
quanta?
quante?
che? chi?
quale?
quali?
Predeterminatori (T)
La classe morfosintattica dei predeterminatori è contraddistinta dal simbolo T. I tratti
morfosintattici associati del genere e del numero sono espressi rispettivamente in prima e seconda
posizione dopo il simbolo @.
Etichetta
T@MS
T@MP
T@FS
T@FP
T@NP
3.2.1.2.6
Descrizione
predeterminatore, maschile singolare
predeterminatore, maschile plurale
predeterminatore, femminile singolare
predeterminatore, femminile plurale
predeterminatore, comune plurale
Esempio
tutto
tutti, entrambi
tutta
tutte, entrambe
ambedue, ambo
Determinatori (D)
La classe morfosintattica dei determinatori è contraddistinta dal simbolo D. Il tagset distingue
tra cinque tipi di determinatori (D = dimostrativo, E = esclamativo, I = indefinito, R = relativo e T =
interrogativo). L’indicazione del tipo segue il simbolo D e precede il simbolo @.
Ad esempio, l’etichetta DD@MS associata con la forma questo si legge, da sinistra verso destra,
come “determinatore dimostrativo, maschile singolare”.
Etichetta
DD@MS
DD@MP
DD@FS
DD@FP
DD@NS
DD@NP
Descrizione
determinatore dimostrativo, maschile singolare
determinatore dimostrativo, maschile plurale
determinatore dimostrativo, femminile singolare
determinatore dimostrativo, femminile plurale
determinatore dimostrativo, comune singolare
determinatore dimostrativo, comune plurale
Esempio
questo, codesto, quello, quel
questi, codesti, quelli, quei
questa, codesta, quella
queste, codeste, quelle
tale
tali
DE@MS
DE@MP
determinatore esclamativo, maschile singolare
determinatore esclamativo, maschile plurale
quanto!
quanti!
E-170
DE@FS
DE@FP
DE@NN
DE@NS
DE@NP
determinatore esclamativo, femminile singolare
determinatore esclamativo, femminile plurale
determinatore esclamativo, comune invariato
determinatore esclamativo, comune singolare
determinatore esclamativo, comune plurale
quanta!
quante!
che!
quale!
quali!
DI@MS
determinatore indefinito, maschile singolare
DI@MP
DI@FS
determinatore indefinito, maschile plurale
determinatore indefinito, femminile singolare
DI@FP
DI@NS
DI@NN
determinatore indefinito, femminile plurale
determinatore indefinito, comune singolare
determinatore indefinito, comune invariato
alcuno, alcun, nessuno, nessun,
certo, poco, molto, …
alcuni, certi, pochi, molti, …
alcuna, nessuna, certa, poca,
molta, …
alcune, certe, poche, molte, …
ogni, qualsiasi, qualche, …
niente
DR@NS
DR@NP
DR@MS
determinatore relativo, comune singolare
determinatore relativo, comune plurale
determinatore relativo, maschile singolare
quale, qualunque
quali
quanto
DT@MS
DT@MP
DT@FS
DT@FP
DT@NN
DT@NS
DT@NP
determinatore interrogativo, maschile singolare
determinatore interrogativo, maschile plurale
determinatore interrogativo, femminile singolare
determinatore interrogativo, femminile plurale
determinatore interrogativo, comune invariato
determinatore interrogativo, comune singolare
determinatore interrogativo, comune plurale
quanto?
quanti?
quanta?
quante?
che?
quale?
quali?
3.2.1.2.7
Articoli (R)
La classe morfosintattica degli articoli è contraddistinta dal simbolo R. La distinzione principale
è tra articoli determinativi o definiti (RD) e articoli indeterminativi o indefiniti (RI).
Ad esempio, l’etichetta RI@MS
indeterminativo, maschile singolare”.
Etichetta
RD@MS
RD@MP
RD@FS
RD@FP
RD@NS
RI@FS
RI@MS
si legge, da sinistra verso destra, come “articolo
Descrizione
articolo determinativo, maschile singolare
articolo determinativo, maschile plurale
articolo determinativo, femminile singolare
articolo determinativo, femminile plurale
articolo determinativo, comune singolare
articolo indeterminativo, femminile singolare
articolo indeterminativo, maschile singolare
E-171
Esempio
il, lo
gli, i
la
le
l’
una, un’
un, uno
3.2.1.2.8
Avverbi (B)
Il tagset distingue fra avverbi in locuzione (BL) e avverbi non in locuzione (B).
Etichetta
B@
BL@
3.2.1.2.9
Descrizione
avverbio
avverbio in locuzione
Esempio
bene, ci, vi, ne
di qua, di sopra, …
Preposizioni (E)
La classe morfosintattica delle preposizioni è contraddistinta dal simbolo E. La distinzione
principale è tra preposizioni semplici e preposizioni composte; queste ultime sono ulteriormente
specificate per i tratti morfosintattici rilevanti, ovvero, in posizioni fisse:
Un’ulteriore distinzione è introdotta tra preposizioni in locuzione (EL) e preposizioni non in
locuzione (E).
L’etichetta E@MS ad esempio, si legge da sinistra verso destra come “preposizione articolata,
maschile singolare”.
Etichetta
E@
Descrizione
preposizione semplice
E@MS
E@MP
E@FS
E@FP
E@NS
EL@
EL@MS
EL@MP
EL@FS
EL@FP
EL@NS
preposizione articolata, maschile singolare
preposizione articolata, maschile plurale
preposizione articolata, femminile singolare
preposizione articolata, femminile plurale
preposizione articolata, comune singolare
preposizione semplice, in locuzione
preposizione articolata in locuz., maschile singolare
preposizione articolata in locuz., maschile plurale
preposizione articolata in locuz., femminile singolare
preposizione articolata in locuz., femminile plurale
preposizione articolata in locuz., comune singolare
3.2.1.2.10
Esempio
di, a, da, in, con, su, per, tra,
fra, …
del, dello, al, allo,…
dei, degli, ai, agli, …
della, alla, sulla, …
delle, alle, sulle, …
dell’, all’, sull’, dall’, …
Congiunzioni (C)
La classe morfosintattica delle congiunzioni è contraddistinta dal simbolo C. Il tagset distingue
tra congiunzioni coordinative (CC) e congiunzioni subordinative (CS). Il simbolo L è aggiunto
prima del simbolo @ se la congiunzione si trova in locuzione.
Etichetta
CC@
CS@
Descrizione
congiunzione coordinativa
congiunzione subordinativa
Esempio
e, ma, o, …
perché, siccome, sebbene, …
E-172
CCL@
CSL@
3.2.1.2.11
congiunzione coordinativa in locuzione
congiunzione subordinativa in locuzione
Numerali (N)
La classe morfosintattica dei numerali è contraddistinta dal simbolo N. Il tagset distingue tra
numerali cardinali (N) e numerali ordinali (NO). I tratti morfosintattici rilevanti sono specificati
dopo il simbolo @, secondo le convenzioni generali.
Etichetta
N@
N@MS
N@FS
NO@MS
NO@MP
NO@FS
NO@FP
3.2.1.2.12
Descrizione
numerale cardinale
numerale cardinale, maschile singolare
numerale cardinale, femminile singolare
numerale ordinale, maschile singolare
numerale ordinale, maschile plurale
numerale ordinale, femminile singolare
numerale ordinale, femminile plurale
Esempio
due, tre, quattro, …
uno
una
primo, secondo, …
primi, secondi, …
prima, seconda, …
prime, seconde, …
Interiezioni (I)
Il tagset permette di distinguere le interiezioni in locuzione (IL) da quelle non in locuzione (I).
Etichetta
I@
IL@
Descrizione
Interiezione
interiezione in locuzione
3.2.1.2.13
Punteggiatura (@@)
Esempio
oh!, eccome, già!
I segni di punteggiatura, se presenti nella trascrizione 9 , sono etichettati mediante il doppio
simbolo @@. Non sono previste categorie più specifiche né distinzioni tra punteggiatura “forte” (. ;
: ! ?) e “debole” (,).
3.2.1.2.14
Abbreviazioni (SA)
Le abbreviazioni (ecc., pagg., fig., vol., …) ricevono l’etichetta SA.
3.2.1.2.15
Classe Residua (X)
Gli elementi che non possono essere classificati in una delle diverse classi ricevono l’etichetta
X@. Ad esempio, le formule, le sequenze alfanumeriche (41esima).
9
Non è questo il caso, ad esempio, delle trascrizioni dei dialoghi uomo-macchina in SI-TAL.
E-173
3.2.1.3 Legenda delle abbreviazioni
Categorie morfosintattiche:
@@: Punteggiatura
A: Aggettivi
A: Articoli
B: Avverbi
C: Congiunzioni
D: Determinatori
E: Preposizioni
I: Interiezioni
N: Numerali
P: Pronomi
S: Nomi
SA: Abbreviazioni
T: Predeterminatori
V: Verbi
X: Classe Residua
Altri simboli che precedono il simbolo @:
C (associato alla categoria C): coordinativa
C (associato alla categoria C): subordinativa
D (associato alla categoria P o D): dimostrativo
D (associato alla categoria R): determinativo
E (associato alla categoria P o D): esclamativo
I (associato alla categoria P o D): indefinito
I (associato alla categoria R): indeterminativo
L: in locuzione
O (associato alla categoria N): ordinale
P (associato alla categoria A o P): possessivo
P (associato alla categoria N): proprio
Q (associato alla categoria P): personale
R (associato alla categoria P o D): relativo
T (associato alla categoria P o D): interrogativo
W: straniero
Simboli che seguono il simbolo @
Tratti morfosintattici:
genere:
F: femminile
E-174
M: maschile
numero:
P: plurale
S: singolare
persona:
1: prima
2: seconda
3: terza
modo del verbo:
C: congiuntivo
D: condizionale
F: infinito
G: gerundio
I: indicativo
M: imperativo
P: participio
tempo del verbo:
F: futuro
I: imperfetto
P: presente
R: passato
Altri:
S: superlativo
Y: forma con clitico
E-175
3.2.2 Estensioni del tagset
Come accennato nel paragrafo 3.2.1, lo schema di annotazione presentato nelle sezioni
precedenti rappresenta quella parte del tagset che può essere applicata tanto allo scritto che al
parlato, e che pertanto è conforme sia alle specifiche del tagset ILC/PAROLE che alle specifiche
morfosintattiche del tema Treebank in SI-TAL.
La rassegna degli schemi di annotazione (vedi parte II, sez. 2) ha evidenziato un insieme di
fenomeni che sono trattati, con strategie diverse, da tutti gli schemi di annotazione morfosintattica
che siano stati applicati al parlato. A nostro avviso tale gruppo rappresenta l’insieme dei fenomeni
che uno schema di annotazione deve assolutamente etichettare per essere considerato
sufficientemente completo.
Qui di seguito illustriamo quindi alcune proposte di estensione del tagset presentato nei paragrafi
precedenti, volte a coprire i fenomeni tipici del parlato. L’estensione avviene sostanzialmente
mediante tre strategie:
a) introduzione di nuove categorie;
b) ulteriore specificazione di categorie già esistenti;
c) adeguamento dei criteri d’uso del tagset 10 .
Questi interventi tesi a rendere il tagset il più possibile adeguato alla rappresentazione, oltre che
dello scritto, anche della lingua parlata, si basano su una procedura rigorosamente bottom-up: quei
fenomeni che o non ricevono nessuna classificazione in base allo schema generale descritto in 2.1 o
non ricevono una classificazione adeguata sono raccolti e classificati sulla base del loro emergere
dall’applicazione dello schema generico alle trascrizioni di alcuni dialoghi. D’altra parte, le
particolari modalità di trascrizione influiscono sui fenomeni da annotare, dal momento che vengono
annotati a livello morfosintattico solo quei fenomeni che sono rappresentati a livello di trascrizione
e, eventualmente, solo quei fenomeni che siano stati filtrati attraverso lo stadio della Trascrizione
Emendata (vedi sez. 3.1.3). Le estensioni descritte qui di seguito sono pertanto da intendersi come
provvisorie e suscettibili di modifiche sulla base della più estensiva applicazione dello schema di
annotazione ad un primo campione di dialoghi, come previsto per la linea 1.2 del progetto.
Più in dettaglio, i fenomeni principali del parlato che impongono una revisione del tagset
morfosintattico sono i seguenti:
-
parole incomplete
-
forme non standard
-
vocalizzazioni quasi lessicali
-
avverbi, interiezioni, marcatori del discorso, particelle pragmatiche
10
Poiché questa operazione ricade nella più generica specificazione dei criteri di applicazione dello schema di
annotazione, essa verrà condotta nella seconda linea del progetto.
E-176
3.2.2.1 Parole incomplete
I criteri di trascrizione (vedi parte I, cap. 3 del manuale) prevedono che le parole incomplete per
le quali è possibile fornire un completamento siano completate. Ad esempio:
(1)
colle delle rondini vabbe' allora fai ~una cosa
in questo caso, il simbolo ~ segnala che la parola ha un troncamento iniziale, ovvero che il
segmento realmente enunciato (o percepito dal trascrittore) è “na” 11 .
In tal caso, a livello morfosintattico la parola verrà etichettata normalmente. L’annotazione
morfosintattica del segmento precedente avrà pertanto la forma seguente:
(1a)
colle
delle
rondini
vabbè
allora
fai
~una
cosa
S@MS
E@FP
S@FP
I@
CC@
V@S2MP
RI@FS
S@FS
lemma=”colle”
lemma=”di”
lemma=”rondine”
lemma=”vabbè”
lemma=”allora”
lemma=”fare”
lemma=”una”
lemma=”cosa”
Laddove invece sia trascritta soltanto la porzione riconoscibile della parola incompleta, si
utilizzerà l’etichetta morfosintattica prevista per la classe residua (X@). Ad esempio:
(2)
arriva <pl> par~ <pl> vai dalla partenza <pb> fai quel mezzo cerchio verso
sinistra circumnavigando colibri'
in questo esempio, non è possibile stabilire la parola-target corrispondente al frammento par~
(potrebbe essere tanto “parti” quanto “partenza”, o qualsiasi altra parola). L’annotazione
morfosintattica corrispondente sarà dunque come segue:
(2a)
arriva
par~
vai
dalla
partenza
fai
quel
mezzo
cerchio
verso
V@S2MP
X@
V@S2MP
E@FS
S@FS
V@S2MP
DD@MS
A@MS
S@MS
E@
lemma=”arrivare”
lemma=”andare”
lemma=”da”
lemma=”partenza”
lemma=”fare”
lemma=”quello”
lemma=”mezzo”
lemma=”cerchio”
lemma=”verso”
11
Talora è difficile distinguere se una parola èsia una forma non standard oppure una forma troncata. E’ questo il
caso dell’esempio appena fatto, dove l’enunciazione è stata prodotta da un parlante di provenienza dialettale
meridionale. La forma “’na” potrebbe essere anziché una forma troncata la forma dialettale corrispondente alla forma
standard dell’articolo indeterminativo “una”. Un altro esempio è il seguente:
la distinzione fra i due casi molto dipende dalla sensibilità del trascrittore.
E-177
sinistra
circumnavigando
colibrì
S@FS
V@G
S@MN
lemma=”sinistra”
lemma=”circumnavigare”
lemma=”colibrì”
3.2.2.2 Forme non standard
3.2.2.2.1
Differenze dialettali vs. errori di esecuzione
Come si è discusso nel capitolo 2 (parte II) a proposito dei fenomeni tipici del parlato, è
necessario distinguere tra quei casi in cui l’uso di una forma lessicale da parte di un parlante è
regolare dal punto di vista della sua variante regionale o sociale, anche se deviante rispetto alla
varietà standard della lingua, ed i casi in cui un parlante produce una forma che è mal formata anche
dal suo punto di vista, come nel caso degli errori di esecuzione. Quest’ultima categoria comprende
le parole pronunciate in modo scorretto, i lapsus o “slips of the tongue”, come nei due esempi
seguenti:
(1)
G129: hai satto un hai fatto un percorso tra partenza e arrivo ?
(2)
F120: io dalla discoteca sono arrivata a automobili , poi ?
G121: no automobili non le devi pensare <pb> devi arrivare diritto fino ad
arrivo <pb>
Il caso delle forme devianti rispetto alla norma standard, ma grammaticali rispetto ad una
qualsiasi variante geo- o socio-dialettale è più complesso e delicato, dal momento che qualsiasi
intervento di normalizzazione implica anche un giudizio di accettabilità vs. non accettabilità delle
forme devianti:
(3)
G075: prosegui fin' e sopra fai un quattro cinque trattini
(4)
G067: vabbè <pb> allora f~ <pb> arriva fino addo' sta 'sto viale della
verità
Non è infrequente che degli usi non standard in questo secondo senso siano interpretati come
errori di esecuzione. Nell’enunciazione seguente, ad esempio, le due forme evidenziate in grassetto
potrebbero essere interpretate tanto come forme dialettali che come forme troncate di “passare” ed
“andare”:
Molto dipende dalla frequenza dei fenomeni (se un fenomeno è molto frequente in un dialogo è
probabile che si tratti di un uso non standard più che di un errore di esecuzione sistematico), e dalla
preparazione e sensibilità linguistica dei trascrittori.
E-178
3.2.2.2.2
Annotazione di forme non standard
Le linee-guida per l’etichettatura morfosintattica delle forme non standard sono le seguenti. Per
ognuno dei casi descritti sopra vi sono diverse strategie possibili, a seconda delle scelte di
rappresentazione che siano state fatte in sede di trascrizione.
3.2.2.2.2.1
Errori di esecuzione
Nel caso degli errori di esecuzione è probabile che già in sede di trascrizione si sia provveduto a
normalizzare la forma trascrivendo la corrispondente forma-target, se questa è ricostruibile con
sufficiente sicurezza. L’attuale pratica di trascrizione in base a queste specifiche (vedi parte I, cap.
3) è infatti quella di trascrivere la forma usando la forma standard corrispondente,
indipendentemente dal modo in cui è pronunciata, con l’aggiunta di un simbolo che indica che si
tratta appunto di una parola mal pronunciata. Questa pratica ha il vantaggio di assicurare che ogni
forma lessicale della trascrizione corrisponda ad un’entrata lessicale nel lessico di riferimento, sia
esso un dizionario standard pre-esistente o un lessico generato specificamente per un dato corpus
(vedi Gibbon 1999: 20). Tuttavia, lo svantaggio è che in tal modo non viene registrata la forma
realmente enunciata, con evidente perdita di informazione per eventuali riutilizzazioni del corpus
annotato. Un’alternativa possibile è di intervenire normalizzando la forma a livello di trascrizione
emendata (vedi sez. 3.1.3); in tal modo si assicura che la forma realmente prodotta rimanga
registrata al livello di trascrizione, e che la normalizzazione riguardi esclusivamente il livello di
annotazione morfosintattica.
Qualsiasi delle due strategie venga adottata, a livello di annotazione morfosintattica verrà
assegnata un’etichetta corrispondente a quella della forma target, che è anche la forma registrata in
trascrizione, ortografica o emendata. Ovviamente, nel caso in cui non sia possibile recuperare una
forma di riferimento, la parola, se trascritta, sarà annotata mediante la categoria X@.
Gli esempi (1) e (2) precedenti sarebbero dunque annotati come segue (il simbolo asterisco è
usato in trascrizione per indicare che la forma realmente prodotta è diversa da quella riportata in
trascrizione):
(1a)
hai
fatto*
un
hai
fatto
un
percorso
tra
partenza
e
arrivo
V@S2IP
V@MSPR
RI@MS
V@S2IP
V@MSPR
RI@MS
S@MS
E@
S@FS
CC@
S@MS
lemma=”avere”
lemma=”fare”
lemma=”uno”
lemma=”avere”
lemma=”fare”
lemma=”uno”
lemma=”percorso”
lemma=”tra”
lemma=”partenza”
lemma=”e”
lemma=”arrivo”
no
automobili
non
le
devi
passare*
devi
arrivare
I@
S@MP
B@
PQ@FP3
V@S2MP
V@F
V@S2MP
V@F
lemma=”no”
lemma=”automobile”
lemma=”non”
lemma=”le”
lemma=”dovere”
lemma=”passare”
lemma=”dovere”
(2a)
E-179
diritto
fino
ad
arrivo
B@
BL@
EL@
S@MS
lemma=”diritto”
lemma=”fino”
lemma=”a”
lemma=”arrivo”
Il precedente esempio (2a) illustra tuttavia la problematicità di adottare un approccio di tipo
normalizzante, a qualsiasi livello esso avvenga. In questo esempio infatti è sì possibile che
“pensare” sia un errore di esecuzione e che la forma intesa fosse “passare”, ma “pensare” potrebbe
anche essere la forma realmente intesa dal parlante (in questo caso, a differenza dell’esempio (1),
non abbiamo la conferma rappresentata dalla successiva correzione da parte dello stesso parlante);
comunque sia, è spesso difficile o puramente arbitrario ricostruire la forma intesa dal parlante.
Sarebbe quindi forse più opportuno non normalizzare la forma in nessun caso, adottando tuttavia
una strategia di annotazione differenziata distinguendo fra due casi possibili:
1) la forma prodotta non ha una controparte nel lessico (il caso di “satto”); in tal caso è più
probabile che si tratti di un errore di esecuzione;
2) la forma prodotta ha una controparte nel lessico (il caso di “pensare”); in questo caso non si è
possibile decidere se si tratti o meno di un errore di esecuzione se non prendendo decisioni
arbitrarie.
Se la forma non ha una controparte nel lessico, come nel caso di “satto” dell’esempio (1), ma è
comunque possibile inferire la categoria morfosintattica di appartenenza della forma intesa, si
etichetta la forma utilizzando l’etichetta corrispondente alla categoria morfosintattica che si
inferisce, ma si aggiunge il simbolo E (mnemonico per “errore di esecuzione”) all’estrema destra
prima del simbolo @. In tal caso non verrà specificato alcun lemma:
(1b)
hai
satto
un
hai
fatto
un
percorso
V@S2IP
VE@MSPR
RI@MS
V@S2IP
V@MSPR
RI@MS
S@MS
lemma=”avere”
lemma=”x”
lemma=”uno”
lemma=”avere”
lemma=”fare”
lemma=”uno”
lemma=”percorso”
Questa strategia serve a rendere il testo annotato pur sempre passibile di annotazione sintattica a
livello di costituenti immediati. In caso contrario, se cioè non venisse prodotta alcuna analisi della
forma in questione, l’analizzatore sintattico non produrrebbe alcuna analisi per la forma in
questione e le forme immediatamente adiacenti, con un incremento della perdita di informazione.
Se la forma è probabilmente un errore di esecuzione, ma corrisponde comunque ad una forma
che ha una controparte nel lessico di riferimento (come nel caso di “pensare”) sopra, si annota la
forma realmente prodotta, secondo le modalità standard. A livello di correzione manuale verrà
introdotto un simbolo che segnala che si tratta di un possibile errore di esecuzione:
(2b)
no
automobili
non
le
devi
pensare
I@
S@MP
B@
PQ@FP3
V@S2MP
VE@F
lemma=”no”
lemma=”automobile”
lemma=”non”
lemma=”le”
lemma=”dovere”
lemma=”pensare”
E-180
3.2.2.2.2.2
Forme non standard
Le forme devianti rispetto ad una variante standard sono invece annotate nel modo seguente: se
è già stato effettuato un intervento di normalizzazione a livello di trascrizione ortografica o
emendata, l’annotazione a livello morfosintattico avviene secondo la pratica standard. Se invece
non si è intervenuti con interventi di normalizzazione, le forme verranno annotate nello stesso modo
in cui verrebbero annotate le forme standard corrispondenti. Per segnalare che si tratta di una forma
non standard, viene inserito un simbolo V (per “variante”) all’estrema destra prima del simbolo @,
per ognuna delle categorie del tagset generico. I tratti morfosintattici specificati saranno quelli
corrispondenti alla forma standard corrispondente, così come il lemma. Nell’esempio (3)
precedente, la “e” nella espressione “fin’e sopra” equivale alla preposizione standard “a”. Ad
esempio:
(3a)
prosegui
fin'
e
sopra
fai
un
quattro
cinque
trattini
V@S2MP
BL@
ELV@
S@MN
V@S2MP
RI@MS
N@
N@
S@MP
lemma=”proseguire”
lemma=”fino”
lemma=”a”
lemma=”sopra”
lemma=”fare”
lemma=”un”
lemma=”quattro”
lemma=”cinque”
lemma=”trattino”
vabbè
allora
f~
arriva
fino
addo'
sta
'sto
viale
della
verita'
I@
CC@
X@
V@S2MP
BL@
CSV@
V@S3IP
DDV@MS
S@MS
E@FS
S@FN
lemma=”vabbè”
lemma=”allora”
(4a)
lemma=”fino”
lemma=”dove”
lemma=”stare”
lemma=”questo”
lemma=”viale”
lemma=”di”
lemma=”verità”
E’ possibile che questa soluzione sia impraticabile, se i fenomeni si riveleranno molto frequenti o
molto complessi. Per esempio, può non essere semplice identificare a quale parola della variante
standard una certa forma corrisponda. Una pratica alternativa, adottata ad esempio in CHRISTINE,
consiste nell’annotare la forma etichettandola secondo il suo omofono nella variante standard, ma
annotare poi il costituente sintattico che la contiene in base alla funzione grammaticale che la forma
ha in quel contesto. Secondo questa pratica, la “e” dell’esempio (3) sarebbe annotata come
congiunzione a livello morfosintattico, mentre a livello sintattico il costituente “e sopra” sarebbe
annotato come “chunk preposizionale” 12 . Questa soluzione, oltre ad avere pesanti controindicazioni
per l’annotazione automatica, non è praticabile nei casi in cui non esista alcuna forma omofona
nella variante standard della lingua, come è ad esempio il caso di (4) sopra.
12
Vedi oltre, paragrafo 3.3 e ss.
E-181
3.2.2.3 Vocalizzazioni pseudo-lessicali
Le vocalizzazioni pseudo lessicali sono suoni come um, uh-huh, ooh, ah, mhm, eh?, eccetera,
prodotti dai parlanti con scopi pragmatici vari. Una prima distinzione approssimativa, che si basa
tanto su considerazioni distribuzionali che di contenuto semantico-pragmatico, può essere fatta tra
riempitivi di pause o esitazioni e vocalizzazioni di prompting.
I riempitivi di pause o esitazioni, dette anche pause piene, sono quei suoni prodotti come modo
convenzionale per mantenere un turno di parola mentre si stanno formulando le parole seguenti. Si
tratta di un fenomeno molto frequente nel parlato spontaneo, che ha precise funzioni pragmatiche e
di regolazione dell’interazione. Dal punto di vista dell’annotazione morfosintattica si pone il
problema se trattare o meno questi elementi come elementi lessicali, assegnando loro una categoria
morfosintattica. Provvisoriamente, suddividiamo questi fenomeni in due classi: suoni basati su una
consonante nasale, come mhmh, mmm, um, … e suoni puramente vocalici, come eeeh, ahhh, ecc.
(1)
quindi va verso la destra del foglio <pb> il cerchio è rivolto verso la
destra del foglio
Le vocalizzazioni di prompting si distinguono dalle pause piene per occorrere in posizione
iniziale o finale di turno e per avere la funzione di assecondare un turno precedente o sollecitare un
turno successivo da parte di un altro parlante. Ad esempio:
(2)
G001: Sara allora c'hai sulla tua sinistra <pb> una figura che s+ viene
definita colibrì
F002: mh
Dal punto di vista dell’annotazione morfosintattica, entrambi i fenomeni sono classificati sotto la
categoria delle interiezioni (vedi sopra, sez. 3.2.1.2.12). Conformemente alle raccomandazioni del
gruppo di EAGLES sul parlato, distingueremo tra i riempitivi di pause a componente vocalico e i
riempitivi a componente nasale. Le seguenti nuove etichette sono introdotte, come specificazione
della categoria I:
Etichetta
I@PN
I@PV
I@VP
Descrizione
pausa piena a componente nasale
pausa piena a componente vocale
vocalizzazione di prompting
Esempio
mm, ehm, ecc.
aah, eeh, ooh, ecc.
mh, eh?, ah!, ecc.
In questa sede, a differenza di quanto avviene in altri schemi di annotazione (in particolare
quello del progetto CHRISTINE), non viene fatta distinzione tra vocalizzazioni di prompting con
funzione affermativa (esempio 2 sopra) e vocalizzazioni con funzione interrogativa, in quanto è
nostra convinzione che questo tipo di informazione sia di pertinenza del livello di annotazione
pragmatica.
E-182
3.2.2.4 Avverbi, interiezioni, marcatori del discorso e particelle pragmatiche
La lingua parlata è molto ricca di elementi lessicali la cui categorizzazione grammaticale taglia
trasversalmente le categorie delle interiezioni, degli avverbi e delle congiunzioni e che assolvono
una ricca gamma di funzioni pragmatiche. Queste vanno dalla segnalazione del particolare tipo di
relazione, semantica, pragmatica o retorica, in cui una enunciazione sta con un’enunciazione
precedente (allora, ma, comunque, perché ecc. all’inizio di turno o enunciazione), all’indicazione di
valori epistemici e di atteggiamento (in realtà, voglio dire, …), dall’espressione di atteggiamenti
semi-convenzionali (ringraziamenti: grazie; forme di cortesia: per favore, prego, ..; saluti:
arrivederci, ciao, buongiorno, …), all’espressione di funzioni di coordinamento dell’interazione
dialogica, ad esempio per cedere il turno o richiederlo.
Di fronte a questa varietà di funzioni sta una relativa uniformità di caratteristiche distribuzionali:
si tratta infatti di forme periferiche rispetto alla clausola o alla frase, che possono occorrere
isolatamente in un turno, grammaticalmente autonome oppure vagamente connesse a livello
prosodico ad una struttura sintattica più ampia, in genere all’inizio o, meno comunemente alla fine.
In alcuni schemi di annotazione morfosintattica del parlato si è cercato di cogliere l’uniformità di
questa classe classificando le diverse forme sotto categorie grammaticali già esistenti e poco
sviluppate, in genere la categoria delle interiezioni o quella degli avverbi. In CHRISTINE, ad
esempio, si propone di ricondurre tutte queste forme alla più generica categoria delle interiezioni,
che viene poi ulteriormente suddivisa in classi più specifiche (vedi parte II, cap. 2), a seconda delle
funzioni svolte da quelle forme. La tabella seguente riporta la classificazione usata in CHRISTINE:
UA
UB
UE
UG
UI
UL
UK
UN
UP
UR
UT
UW
UX
UY
Apology
Smooth-over
Engager
Greeting
Initiator
Response Elicitor
Attention Signal
Negative
please
Response
Thanks
well
Expletive
Positive
pardon, sorry, excuse_me
don’t_worry, never_mind
I_mean, mind_you, you_know
hi, hello, good_morning
anyway, however, now
eh, what
hey, look
no
as discourse marker
fine, good, uhuh, OK, all_right
thanks, thank_you
as discourse marker
damn, gosh, hell, good_heavens
yes, yeah, yup, mhm
Tabella 3.1: Classificazione delle interiezioni in CHRISTINE
Una classificazione simile nel principio, ma effettuata a partire dalla categoria degli avverbi, è
quella proposta nel LONDON-LUND CORPUS (Svartvik & Eeg-Olofsson, 1982) illustrata nella tabella
seguente:
TAG
AQgre
AQhes
AQneg
CATEGORY
adverb
adverb
adverb
SUBCAT
discourse item
discourse item
discourse item
SUBSUBCAT OR ITEM
greeting
hesitator
negative
E-183
EXAMPLE
goodbye
now
no
AQord
AQpol
AQpos
AQres
adverb
adverb
adverb
adverb
discourse item
discourse item
discourse item
discourse item
order
politeness
positive
response
give over
please
yes, mm
I see
Tabella 3.2: Alcune sottocategorie avverbiali del LONDON-LUND CORPUS
Questo approccio presenta una serie di problemi. Il primo problema è illustrato dalle diverse
classificazioni che i due schemi citati attribuiscono alle stesse forme, che evidenzia il limite
estremamente vago fra queste due categorie grammaticali periferiche. Si nota, infatti, come i due
schemi siano inconsistenti tra loro relativamente alla classificazione di certe forme. Ad esempio, le
stesse forme di saluto, di risposta e di cortesia sono classificate come interiezioni in CHRISTINE, e
come avverbi nello schema LONDON-LUND. Il secondo problema è rappresentato dall’uso di queste
categorie nell’annotazione: molte parole in queste classi occorrono in più di una categoria, tanto che
la disambiguazione può essere estremamente problematica anche per un’annotazione manuale. Per
esempio oh, classificato come un’esclamazione, in molti casi si comporta come un ‘discourse
marker’, mentre okay, classificato come una forma di risposta, può anche occorrere in funzione di
elicitatore di risposta e di ‘discourse marker’.
Un ulteriore problema di ordine teorico è che questo tipo di approccio a nostro parere ha il
difetto di confondere l’annotazione morfosintattica con l’annotazione della funzione pragmatica,
che dovrebbero invece essere mantenute distinte. Inoltre, a livello di annotazione inter-livello può
essere interessante vedere quali diverse categorie grammaticali svolgano la stessa funzione
pragmatica.
In alternativa, è stata spesso avanzata in letteratura l’esigenza di creare una classe grammaticale
autonoma, eventualmente sottoclassificata in categorie più specifiche (inserire riferimenti). A questa
categoria è stato spesso dato il nome di marcatori del discorso o connettivi. Questa alternativa,
sebbene interessante, riduce notevolmente la possibilità di confronto fra annotazione morfosintattica
dello scritto e del parlato, perché forme che compaiono anche nello scritto, sia pure con frequenza
minore, verrebbero riclassificate in una nuova classe non prevista dal tagset morfosintattico per la
lingua scritta.
Per l’annotazione morfosintattica del parlato in SI-TAL, adotteremo provvisoriamente una
strategia intermedia, che rappresenta un compromesso fra le due alternative descritte ed è conforme
alle raccomandazioni espresse dal gruppo di EAGLES sul parlato (vedi Gibbon 1999: 36). Il nostro
approccio consiste nello specificare criteri precisi di attribuzione delle diverse forme alle categorie
già esistenti delle interiezioni, delle congiunzioni e degli avverbi. Le diverse classi possono poi
essere ulteriormente specificate, ma la classificazione è fatta esclusivamente su base distribuzionale,
evitando di usare categorie determinate su base pragmatica in quanto questo tipo di classificazione è
rimandata al livello pragmatico. Una nuova sotto-categoria MD (marcatori del discorso) viene
associata alle categorie degli avverbi e delle congiunzioni, quando occorrono in contesti particolari,
per esempio isolatamente in un turno o in posizione iniziale o finale di turno. Una illustrazione
preliminare dei criteri di attribuzione è riassunta nei paragrafi seguenti:
3.2.2.4.1
Interiezioni
Alla classe delle interiezioni appartengono le forme seguenti (vedi anche sopra, sez. 3.2.2.3):
•
forme di saluto (ciao, buongiorno, arrivederci, …):
E-184
(1)
buongiorno, vorrei avere informazioni sull’orario dei treni
(2)
grazie per aver chiamato, arrivederci
•
elicitatori di risposta (eh?, huh?, ok?)
•
esclamazioni (oh, ah, ooh):
(4)
G041: la seconda quella piu' in alto
F042: ah ! quella più in alto ?
•
forme di risposta (ok, hu-huh, …):
(5)
G043: eh <pb> sì ma non ci andare proprio sopra
•
forme di cortesia (grazie, prego):
(6)
A0_12: aveva bisogno anche di un albergo a new york ?
B0_13: si` grazie
3.2.2.4.2
Avverbi
Alcuni avverbi (B@) possono essere ulteriormente classificati mediante la sottocategoria MD,
quando occorrono in posizione iniziale o finale di turno, o costituiscono un turno completo. Alcuni
esempi sono riportati di seguito, insieme all’indicazione generica della funzione pragmatica tipica
corrispondente:
•
Elicitatori di risposta:
(1)
G003: descrivigli un ce~ un mezzo cerchio dove c'è scritto partenza fai un
mezzo cerchio andando verso sinistra <pl> la devi circumnavigare questa
figura
F004: si' <pb> poi?
•
Forme di risposta:
(2)
G003: descrivigli un ce~ un mezzo cerchio dove c'è scritto partenza fai un
mezzo cerchio andando verso sinistra <pl> la devi circumnavigare questa
figura
F004: si' <pb> poi?
(3)
B0_09: c' e` disponibilita` di un posto in seconda classe ?
A0_10: certo un biglietto in seconda classe costa due cento quindici
dollari
E-185
•
Connettivi:
(3)
G005: hai fatto ? ora prosegui diritto <pl> vai diritto <pb> e arriva
In tutti i casi precedenti, la forma evidenziata in grassetto riceve l’etichetta B@MD
3.2.2.4.3
Congiunzioni
Le congiunzioni, sia coordinative che subordinative, quando si trovano all’inizio di turno o di
enunciazione sono marcate mediante l’aggiunta del simbolo MD dopo il simbolo @. Alcuni esempi:
(1)
G023: fino a dove sta questo c~ valle di colibrì qua <P> ci sei arrivata ?
quindi va verso la destra del foglio
(2)
G017: allora stammi a sentire
(3)
F018: ce ne sono due però
In tutti i casi precedenti, la forma evidenziata in grassetto riceve l’etichetta CC@MD o CS@MD.
E-186
3.3
Specifiche di annotazione per il livello sintattico
L’annotazione sintattica del parlato pone dei problemi particolari, in considerazione da una parte
delle peculiarità dei fenomeni che caratterizzano la lingua parlata rispetto alla lingua scritta, e
dall’altro dell’inadeguatezza a rappresentare quei fenomeni da parte della maggioranza degli schemi
di annotazione sintattica esistenti, che sono stati sviluppati sulla base della lingua scritta.
Per fare un esempio, come è stato già accennato nella parte di questo manuale relativa allo stato
dell’arte (vedi parte II, cap. 2), la nozione canonica di frase della lingua scritta, come massima unità
analizzabile contenente almeno un verbo finito, costituisce soltanto un tipo di struttura ideale nella
segmentazione dei dialoghi reali. In realtà, infatti, le enunciazioni spesso consistono di sintagmi,
non raramente costituiti di una sola parola, che spesso non è un verbo, come illustrato anche dagli
esempi riportati nei paragrafi precedenti. Se, in aggiunta, si considerano i fenomeni di anacoluto, di
incompletezza sintattica ed altri fenomeni simili di “gestione” del parlato, è evidente che qualsiasi
tentativo di costruire delle proiezioni sintattiche massime sulla base della concatenazione di
strutture sintagmatiche intermedie è condannato al fallimento. Alcuni corpora annotati
sintatticamente (o treebanks), in pratica usano delle parentesizzazioni massimali che comprendono
l’intera unità analizzabile, senza fare assunzioni sulla sua struttura interna. Questo è ad esempio
l’approccio adottato dal BRITISH NATIONAL CORPUS sotto il nome di “principio di minimizzazione
strutturale”, ed è sicuramente preferibile all’alternativa di eliminare le principali disfluenze in modo
da poter eseguire l’analisi sintattica su delle enunciazioni normalizzate. In primo luogo, infatti, è
difficile vedere come la strategia di normalizzazione possa essere applicata a delle enunciazioni
marcatamente disfluenti senza per ciò stesso imporre un’interpretazione artefatta del dialogo. In
secondo luogo, è utile poter analizzare la struttura sintattica anche di fenomeni di incompletezza e
di correzione, in quanto questa analisi può costituire un’importante fonte di informazione sia per
l’annotazione che per lo sviluppo di strumenti software di analisi automatica robusta. Infine, i
fenomeni di disfluenza non sono l’unica fonte di difficoltà nell’analisi a costituenti della lingua
parlata.
Altri fenomeni, infatti, come l’occorrenza massiccia di dislocazioni, costruzioni a tema sospeso,
topicalizzazioni, sintagmi interrotti, per citarne solo alcuni, rappresentano una grossa difficoltà per
le analisi a costituenti, che sono state eseguite soprattutto in riferimento ad esempi di lingua scritta.
Questi fenomeni, che pure si presentano anche nella lingua scritta, ma con frequenza sensibilmente
inferiore, rendono le strategie di rappresentazione sintattica a costituenti non sempre opportune e
spesso inadeguate. Ad esempio, la frequenza dei costituenti discontinui richiederebbe un pesante
ricorso all’uso del meccanismo ‘filler-trace’, con il risultato di produrre degli alberi sintattici
considerevolmente diversi dalle sottostanti strutture predicato-argomento. E’ tra l’altro significativo
che tutti quegli schemi che adottano un’analisi sintattica a costituenti e che sono stati applicati al
parlato adottino anche un approccio normalizzante, con un’unica eccezione, rappresentata dal
corpus CHRISTINE.
Inoltre, altri due argomenti vanno contro l’adozione di una struttura di base a costituenti:
•
i modelli di struttura a costituenti stipulati per le lingue non configurazionali differiscono
notevolmente fra di loro, costituendo così una potenziale contraddizione per la neutralità
teorica dello schema
•
la struttura a costituenti serve da mezzo esplicativo della variazione dell’ordine delle parole,
il che contraddice il requisito di descrittività.
E-187
Una alternativa di analisi rispetto all’adozione di principi di minimizzazione strutturale o di
strategie di normalizzazione, e che al contempo aggira le difficoltà poste all’analisi strutturale dalla
lingua parlata, è rappresentata dalla cosiddetta “analisi a costituenti immediati” o shallow parsing.
3.3.1 Shallow Parsing
Con il termine di “shallow parsing” si intende un’ampia gamma di approcci all’analisi sintattica,
che usano tecniche diverse (per esempio, tecniche basate su regole oppure tecniche stocastiche) e
sono rivolti a scopi diversi (per esempio, acquisizione di conoscenza lessicale, traduzione
automatica, controllo di stile, ecc.). In termini molto generali, per analisi a costituenti immediati (o
“shallow parsing”) si intende un’analisi incompleta o parziale della struttura sintattica del testo,
ovvero l’annotazione, nel testo, dei soli nuclei sintagmatici non ricorsivi. La rappresentazione
sintattica risultante è un’analisi incompleta o parziale, che non fornisce alcuna informazione relativa
ai legami di dipendenza tra nuclei sintagmatici, ma si limita a verificare la correttezza “markoviana”
delle sequenze di parole enunciate. Questo tipo di annotazione presenta correlazioni interessanti con
il livello prosodico, e consente di annotare qualsiasi tipo di testo, anche assai “rumoroso”, grazie al
carattere locale e non ricorsivo delle sue regole.
Esistono vari approcci a questo tipo di analisi, che adottano visioni leggermente diverse nella
definizione dei costituenti e delle categorie associate. L’aspetto comune ai diversi approcci di
analisi sintattica parziale è il carattere comunque locale delle analisi proposte, con un’enfasi
particolare posta sul fatto che le relazioni sintattiche fra i costituenti non devono essere
necessariamente specificate.
Questo aspetto è particolarmente rilevante per l’annotazione sintattica del dialogo, per esempio
in relazione all’analisi di sintagmi parziali o di “fusioni” sintattiche. Dal momento che l’analisi in
costituenti immediati non implica il controllo di consistenza dei livelli di incassamento strutturale
ad un livello superiore a quello dei costituenti identificati (in altre parole, del modo in cui i
costituenti siano connessi ai nodi superiori di un albero sintattico), un analizzatore sintattico
parziale (o shallow parser), non si interrompe di fronte al verificarsi di un sintagma incompleto, né
cerca di mantenere un anacoluto in linea con la costruzione sintattica complessiva. Da questo punto
di vista, l’analisi sintattica parziale restituisce un risultato che rappresenta la controparte della
rappresentazione richiesta dal “principio di minimizzazione strutturale”: invece di fornire la
massima struttura compatibile con i dati, l’analisi parziale restituisce una lista di strutture sintattiche
minime e non connesse che sono compatibili con i dati in entrata.
Da un punto di vista molto generale, gli analizzatori sintattici a costituenti immediati prendono in
input l’output di un analizzatore morfologico, preferibilmente ma non necessariamente
disambiguato in contesto mediante applicazione di un tagger. Al di là delle varie differenze nella
tipologia della rappresentazione in output, gli analizzatori sintattici “shallow” condividono la
proprietà che le analisi risultanti non devono essere complete; in altre parole, le strutture non
riconosciute e le relazioni di dipendenza fra parole che non vengono identificate sono lasciate
sottospecificate per quanto riguarda la loro natura ed il loro dominio.
L’output di uno shallow parser è computato sulla base di un minimo di conoscenza linguistica
presupposta, che si aggiunge all’informazione posseduta dalla rappresentazione in input, ovvero
informazione morfosintattica, informazione relativa al lemma, e informazione sull’ordine delle
parole. Questo concetto può essere espresso dicendo che il punto di partenza di uno shallow parser è
tipicamente una sorta di “lessico sintattico vuoto”, e che le analisi che ne risultano non sono guidate
lessicalmente: per esempio, tutti i costituenti sono rappresentati sullo stesso piano, come figli del
E-188
nodo-frase, data l’impossibilità di fare affidamento su informazione di tipo lessicale (soprattutto
schemi di sottocategorizzazione) per stabilire le dipendenze appropriate.
3.3.2 Chunking
In questa sezione e nelle sezioni seguenti viene illustrata una particolare accezione della nozione
di “shallow parsing”, a cui faremo riferimento con il termine di “chunking”. In questa particolare
accezione dell’analisi a costituenti immediati il concetto di “analisi incompleta” viene reinterpretato
nel senso di “analisi sottospecificata”, suscettibile di e compatibile con dei livelli di analisi sintattica
più raffinati.
Come prima approssimazione, analizzare un testo, scritto o parlato, in termini di chunking
significa segmentare il testo in una sequenza non strutturata di unità sintatticamente organizzate
dette “chunks” (Abney, 1991). Nell’interpretazione adottata in questa sede, che prende come punto
di partenza quella adottata nello standard di SPARKLE (vedi sotto, sez. 3.3.2.3), questa
segmentazione deve avvenire con un minimo di informazione linguistica presupposta, ovvero
tramite il ricorso ad un lessico sintattico “semi-vuoto” contenente nessun altra informazione al di là
del lemma dell’entrata, della categoria grammaticale e dei tratti morfosintattici. Le analisi che ne
risultano sono analisi piatte: tutti i chunks sono rappresentati allo stesso livello strutturale, come
figli dello stesso nodo-radice. A sua volta, ogni chunk C è una struttura sintatticamente organizzata
(definita in termini di coppie attributo-valore), che mostra i tratti specifici del chunk insieme alla
natura e all’ambito delle dipendenze che sussistono tra le parole coperte da C.
Il chunking del testo è eseguito per mezzo di un automa a stati finiti, d’ora in avanti definito
“Chunker” (Federici et al., 1996) che prende in input un testo etichettato morfosintatticamente. Alla
base dello sviluppo dello schema di annotazione e del software ad esso correlato sta una vasta
gamma di obiettivi, dalla minimizzazione dei problemi tipici dell’analisi automatica dei testi reali
all’identificazione affidabile di costituenti sintattici in un testo per mezzo dell’informazione minima
disponibile, all’acquisizione di informazione lessicale da corpora.
3.3.2.1 La nozione di chunk
Nell’interpretazione adottata in questa sede, un chunk è una unità testuale di elementi lessicali
adiacenti. Le parole che sono comprese in un unico chunk condividono la proprietà di essere
connesse per mezzo di catene di dipendenza che possono essere identificate in modo non ambiguo
in contesto senza ricorso ad informazione lessicale diversa dalla categoria morfosintattica ed i tratti
associati. Un chunk è sempre una unità massimale e non ricorsiva, che non può essere incassata in
un chunk più inclusivo. In concreto, data una enunciazione LE NUOVE TECNOLOGIE INFORMATICHE
HANNO UN SEMPRE MAGGIORE IMPATTO SUL PROCESSO PRODUTTIVO, la segmentazione prevede sei
chunks distinti:
A. [LE NUOVE TECNOLOGIE]
B. [INFORMATICHE]
C. [HANNO]
D. [UN SEMPRE MAGGIORE IMPATTO]
E. [SUL PROCESSO]
E-189
F. [PRODUTTIVO]
Ogni chunk include una sequenza di elementi lessicali adiacenti che sono connessi fra loro
attraverso legami di dipendenza di tipo specificabile. La struttura interna del chunk mantiene traccia
di questi legami di dipendenza:
le nuove tecnologie
Un testo analizzato in chunks non contiene informazione sulla natura e l’ambito delle
dipendenze fra chunks. Di conseguenza, se due sottostringhe di un testo sono assegnate a due
chunks distinti, questo non esclude necessariamente l’esistenza di una relazione di dipendenza fra i
due. Per esempio, la rappresentazione in chunks riportata sopra non dice niente sulla relazione tra
IMPATTO e SUL PROCESSO, ma questo non significa che una tale relazione non sussista.
Semplicemente, l’informazione lessicale disponibile al Chunker non permette di affermare in modo
non ambiguo quale chunk si connette ai chunk vicini e quale sia la natura di questa relazione.
Facendo astrazione dal contenuto lessicale dei chunks della frase precedente, E è potenzialmente
dipendente da D o da C e questo non può essere deciso senza fare ricorso ad informazioni di
sottocategorizzazione (ovvero che IMPATTO, a differenza del verbo AVERE, sottocategorizza un
sintagma preposizionale la cui testa è SU). In mancanza di questa informazione, la dipendenza tra
chunks è lasciata sottospecificata.
In sintesi, i chunks sono definiti su base strettamente sintattica: seguendo una definizione di
Abney (1996), un chunk può essere inteso come “il nocciolo non ricorsivo di un costituente intraclausale, che si estende dall’inizio del costituente fino alla sua testa, ma non include i dipendenti
che seguono la testa”.
Nell’esempio precedente, l’uso della sottospecificazione (da leggere qui come non attachment) è
anche il motivo del trattamento particolare e non convenzionale degli aggettivi INFORMATICO e
PRODUTTIVO da una parte, e di NUOVE e MAGGIORE dall’altra. Si noti che “nuove” e “maggiore” sono
per così dire “intrappolati” tra il determinatore ed il nome, diventando così parte di un chunk
(nominale) più ampio. Nel caso di INFORMATICO e PRODUTTIVO, d’altra parte, gli aggettivi formano
un chunk indipendente. Il diverso trattamento riflette l’idea intuitiva che il Chunker debba ricercare
esclusivamente delle dipendenze non ambigue. La posizione di INFORMATICO, nel contesto, non
lascia ambiguità relativamente al suo governor (il nome seguente), e questo è catturato rendendolo
parte dello stesso chunk. Ciò non è vero per i modificatori aggettivali postnominali, che sono
dunque mantenuti separati come chunks indipendenti.
3.3.2.2 La nozione di “potential governor”
La definizione di chunk adottata qui è centrata sulla nozione di “potential governor”. Un chunk
contiene al massimo un potential governor (segnato in grassetto nella frase precendente), che è
sempre l’elemento più a destra della sequenza di parole coperta dal chunk ed in genere (ma non
sempre) rappresenta la testa sintattica del chunk. Dal punto di vista delle relazioni fra chunks, il
potential governor è la parola con cui i chunk vicini possono combinarsi sintatticamente in una
relazione di dipendenza. Chiaramente, la natura e la direzione di questa dipendenza (se dalla testa
verso il dipendente o dal dipendente verso la testa) dipende da se questo potential governor
sottocategorizzi qualcosa o sia sottocategorizzato da qualcos’altro nel contesto considerato. Anche
se, come si è detto in precedenza, il Chunker ignora le dipendenze fra chunks, tuttavia prepara la
strada ad una loro assegnazione ad uno stadio successivo dell’analisi, schematizzando, per così dire,
E-190
la mappa delle unità linguistiche possibili (ovvero i potential governors) tra le quali possono
sussistere delle dipendenze sintattiche.
Nelle sezioni seguenti sono elencate le categorie dello schema di annotazione, le etichette usate
ed alcuni esempi di applicazione di quelle etichette.
3.3.2.3 Inventario delle categorie ed esempi
Lo schema di annotazione a costituenti immediati o chunks illustrato nelle sezioni seguenti si
basa sullo standard sviluppato nell’ambito del progetto LE-2111 SPARKLE (Shallow PARsing and
Knowledge extraction for Language Engineering, Carroll et al. 1996), opportunamente modificato
ed adattato per essere applicato a dati di lingua parlata. E’ inoltre conforme con lo schema di
annotazione a costituenti immediati adottato nell’ambito del recente progetto MATE (Multilevel
Annotation, Tools Engineering, vedi MATE 1998), dove pure l’annotazione sintattica del parlato
avviene mediante uno schema basato su un’analisi a costituenti immediati.
Analogamente a quanto fatto per le specifiche di annotazione morfosintattica (sez. 3.2 di questo
documento), lo schema di annotazione sintattica descritto nei paragrafi successivi illustra le
specifiche sintattiche di base, che possono essere applicate tanto allo scritto che al parlato. Nella
sezione 3.3.3 verranno invece presentate le modifiche apportate per poter estendere l’applicazione
dello schema all’analisi del parlato.
Nello schema di annotazione, ad ogni chunk che viene identificato viene assegnata una categoria.
Due sono i tipi principali di chunk: chunk che contengono un potential governor o chunk
“sintagmatici” e chunk che non contengono elementi che possono agire come potential governor.
Questi ultimi, esemplificati dalla punteggiatura e dalle congiunzioni coordinative, sono detti anche
chunks “marcatori”, e rivestono una notevole importanza per gli scopi dell’acquisizione lessicale,
dal momento che tengono traccia dei marcatori testuali che sono usati come “segnaposto” nella fase
di acquisizione (vedi Federici et al., 1998).
La tipologia completa dei chunks è riassunta nella tabella seguente:
Etichetta
ADJ_C
ADV_C
FV_C
G_C
I_C
N_C
P_C
PART_C
C_C
BE_C
ADJPART_C
di_c
PUNCT_C
Tipo
chunk aggettivale
chunk avverbiale
chunk verbale (verbo finito)
chunk gerundivo
chunk infinitivo
chunk nominale
chunk preposizionale
chunk participiale
chunk congiuntivo
chunk predicativo (aggettivale/participiale)
chunk aggettivale/participiale
chunk introdotto dalla preposizione di
chunk di punteggiatura
Come si sarà notato, l’insieme delle categorie sintattiche si allontana dall’insieme classico di
categorie sintagmatiche usate nella sintassi a costituenti: da una parte compaiono delle distinzioni
più granulari, come la distinzione fra i chunk verbali a seconda del modo del verbo; dall’altra
E-191
categorie tradizionali come quelle di that-clause, wh-clause ecc. non compaiono nella lista in quanto
vengono decomposte in sequenze di chunk di base. Le congiunzioni subordinative e coordinative
sono marcate come chunk indipendenti solo quando non sono seguite dal verbo essere. Il tagset
prevede anche alcune categorie sottospecificate (di_C, ADJPART_C, che_C, vedi sez. 3.3.2.3.11) che
vengono applicate laddove non sia possibile sulla base dell’informazione disponibile stabilire con
sicurezza l’appartenenza del chunk ad una categoria univoca.
3.3.2.3.1
Chunk aggettivali (ADJ_C)
I chunk aggettivali si estendono da un qualsiasi avverbio premodificatore o intensificatore fino
ad una testa costituita da un aggettivo. Questa definizione fornisce solo una condizione necessaria
per l’identificazione dei chunk aggettivali, ma non sufficiente. In realtà, i sintagmi aggettivali che
occorrono in posizione pre-nominale non sono marcati come chunk separati dal momento che la
loro relazione con il nome che li governa è identificata senza ambiguità all’interno del chunk
nominale. Lo stesso vale nel caso di sintagmi aggettivali predicativi governati dal verbo essere che
sono parte di chunks di tipo BE_C (vedi sotto, par. 3.3.2.3.10).
I chunk aggettivali dunque includono:
•
sintagmi aggettivali post-nominali, sia che seguano immediatamente il nome modificato sia
che si trovino più oltre nella frase. Ad esempio:
[N_C un bambino] [ADJ_C bravo]
[N_C la progettazione] [P_C di tecniche] [P_C di base] [ADJ_C indispensabili] [P_C al
progresso] [ADJ_C industriale]
•
sintagmi aggettivali predicativi non governati dal verbo ESSERE:
[FV_C diventa] [ADJ_C più difficile]
[FV_C lo considera] [ADJ_C molto opportuno]
Il fatto che i sintagmi aggettivali predicativi governati da verbi copulativi diversi da essere siano
trattati diversamente dai sintagmi aggettivali governati dal verbo essere deriva dall’assunto che il
Chunker debba basarsi esclusivamente su informazione linguistica di base relativa ai lemmi e alle
categorie morfosintattiche. La classe di tutti i verbi copulativi è una classe potenzialmente aperta, e
quindi la sua definizione va al di là della conoscenza linguistica presupposta dal Chunker.
3.3.2.3.2
Chunk avverbiali (ADV_C)
I chunk avverbiali si estendono da un qualsiasi pre-modificatore avverbiale alla testa avverbiale.
Questa definizione, tuttavia, fornisce un’indicazione necessaria ma non sufficiente per
l’identificazione dei chunks avverbiali. In realtà, i sintagmi avverbiali che occorrono tra un verbo
ausiliare ed un participio passato non sono isolati come chunks distinti a causa del fatto che
dipendono dal verbo in modo non ambiguo. Per lo stesso motivo, quegli avverbi che premodificano
immediatamente verbi o aggettivi vengono considerati parte rispettivamente di un chunk verbale o
aggettivale. Inoltre, i sintagmi nominali usati avverbialmente (per esempio, LA SETTIMANA SCORSA,
QUESTA MATTINA) sono trattati come chunks nominali.
E-192
Alcuni esempi:
[FV_C ha sempre camminato] [ADV_C molto]
[FV_C ha finito] [ADV_C molto rapidamente]
3.3.2.3.3
Chunk verbali – modo finito (FV_C)
I chunks di tipo FV_C sono chunks contenenti un verbo finito che includono tutti i modali, gli
ausiliari ordinari e causativi così come avverbi intermedi e pronomi clitici fino alla testa verbale.
Per esempio:
• chunk verbale con verbo ausiliare o modale e avverbio intermedio:
[FV_C può ancora camminare]
• chunk verbale con avverbio pre-modificatore:
[FV_C non ha mai fatto] [ADV_C così]
•
l’ausiliare
ESSERE in forme verbali perifrastiche (sia attive che passive) come SONO CADUTO,
SONO STATO COLPITO, o MI SONO ACCORTO, è trattato come parte di un chunk verbale finito, a
meno che il verbo ESSERE non sia seguito da un participio passato che il dizionario classifica
anche come aggettivo; in tal caso è segmentato come un chunk di tipo BE_C (vedi sotto, par.
3.3.2.3.10).
[FV_C è] [N_C un simpatico ragazzo]
• gli ausiliari ed i modali preposti costituiscono dei chunks FV_C separati:
[FV_C può] [N_C la commissione] [I_C deliberare] [P_C su questa materia]?
• costruzioni causative perifrastiche:
[FV_C fece studiare] [N_C il bambino]
• i pronomi clitici sono parte del chunk la cui testa è il verbo immediatamente adiacente:
[FV_C lo ha sempre fatto]
3.3.2.3.4
Chunk verbali – modo gerundio (G_C)
I chunks di tipo G_C contengono una forma verbale al modo gerundio. Se fa parte di un gruppo
verbale marcato per il tempo (per esempio, nelle costruzioni progressive), la forma verbale
gerundiva non viene marcata indipendentemente. Il tipo G_C include anche le forme gerundive che
funzionano come sintagmi nominali. Ad esempio:
•
[FV_C sta studiando]
•
[G_C studiando] [FV_C ho imparato] [ADV_C molto]
E-193
3.3.2.3.5
Chunk verbali – modo infinito (I_C)
I chunks di tipo infinitivale (I_C) includono tanto gli infiniti semplici che gli infiniti introdotti da
una preposizione:
•
[FV_C ha promesso] [I_C di arrivare] [ADV_C presto]
•
[FV_C desidera] [I_C partire] [ADV_C domani]
3.3.2.3.6
Chunk nominali (N_C)
I chunk di tipo N_C si estendono dall’inizio del sintagma nominale fino alla sua testa, ed
includono chunk nominali le cui teste possono essere nomi, pronomi, verbi all’infinito se preceduti
da un articolo, e nomi propri. I sintagmi nominali in funzione avverbiale (per esempio, QUESTA
MATTINA) sono trattati come chunks nominali. Tutti i tipi di modificatori e/o specificatori che
occorrono tra l’inizio del sintagma nominale e la testa sono inclusi nel chunk N_C. Alcuni esempi:
•
[N_C un bravo bambino]
•
[N_C tutte le possibili soluzioni]
•
[N_C i sempre più frequenti contatti]
•
[N_C questo]
•
[N_C il camminare]
•
[N_C il bello]
Nello schema di annotazione, i chunks nominali coprono una porzione soltanto della gamma dei
fenomeni linguistici normalmente coperti dai sintagmi nominali, ovvero soltanto quei sintagmi
nominali con complementazione prenominale.
3.3.2.3.7
Chunk preposizionali (P_C)
I chunk di tipo preposizionale (P_C) si estendono da una preposizione fino alla testa del gruppo
nominale seguente. La maggior parte dei criteri definiti per i chunk di tipo nominale si applicano
anche a questo caso. Esempi tipici di chunk preposizionali sono seguenti:
•
[P_C per i prossimi due anni]
•
[P_C fino a un certo punto]
3.3.2.3.8
Chunk participiali (PART_C)
I chunk participiali (PART_C) includono costruzioni participiali come le seguenti:
•
[PART_C finito] [N_C il lavoro] , [N_C Giovanni] [FV_C andò] [P_C a casa]
E-194
3.3.2.3.9
Chunk congiuntivi (C_C)
I chunk congiuntivi (C_C) includono una congiunzione, sia coordinativa che subordinativa. Le
congiunzioni sono segmentate come chunks separati solo quando non sono seguiti immediatamente
da un gruppo verbale. Si confronti, ad esempio, la struttura della frase seguente
•
[FV_C non so] [C_C quando] [N_C il direttore] [FV_C mi riceverà]
con la struttura della frase seguente, che differisce dalla precedente per avere il soggetto della
clausola subordinata in posizione postverbale:
•
[FV_C non so] [FV_C quando mi riceverà] [N_C il direttore]
3.3.2.3.10
BE_C
I chunk di tipo BE_C consistono di una forma del verbo ESSERE seguita da un aggettivo o da un
participio passato, includendo gli eventuali sintagmi avverbiali inframmezzati. Ad esempio:
•
[BE_C è intelligente]
•
[BE_C è molto bravo]
•
[BE_C è appena arrivato]
3.3.2.3.11
Categorie sottospecificate: di_C, ADJPART_C, che_C
Non sempre il Chunker è in grado di identificare con certezza la categoria di un chunk. In questo
caso, il problema può essere parzialmente aggirato mediante l’uso di categorie sottospecificate, che
si aggiungono all’inventario delle categorie precedenti.
Il Chunker fa ricorso a categorie sottospecificate in casi di ambiguità sistematica. Per esempio, il
chunk di_C include una preposizione complessa introduttiva di che può essere interpretata sia come
una preposizione sia come articolo partitivo, come nel caso di un’espressione come dello zucchero.
La categoria di_C è compatibile con entrambe le analisi e dunque sussume sia chunks di tipo N_C
che di tipo P_C.
L’ambiguità sistematica tra aggettivi e participi presenti o passati rappresenta un altro caso. Si
consideri, per esempio, il sintagma UN’IMMAGINE COLORATA e la sua rappresentazione in chunks qui
sotto:
A. [N_C un’immagine]
B. [?_C colorata]
Qui, il potential governor in B. può essere tanto una forma participiale del verbo COLORARE che
un aggettivo (COLORATO). La categoria corrispondente potrebbe dunque variare tra PART_C e ADJ_C.
In questo caso, l’ambiguità è mantenuta per mezzo della categoria sottospecificata ADJPART_C, che
sussume sia ADJ_C che PART_C. La categoria ?_C espressa sopra sarebbe dunque sostituita da
[ADJPART _C colorata].
Infine, l’omografia tra il pronome relativo CHE e la congiunzione subordinativa CHE dà luogo ad
un’altra ambiguità sintattica possibile. La categoria che_C serve come categoria generica che copre
entrambe le costruzioni; il chunk corrispondente si estende da un’occorrenza di CHE ed è costruito
E-195
come un C_C (vedi sopra, par. 3.3.2.3.9). La categoria morfosintattica contestualmente appropriata è
lasciata sottospecificata.
3.3.2.3.12
Punteggiatura
I segni di punteggiatura, se presenti, formano un chunk separato, identificato dalla categoria
PUNCT_C.
3.3.2.4 Dipendenze interne e dipendenze esterne
In questa sezione, dopo aver illustrato brevemente i criteri e le categorie del chunking,
affrontiamo il problema del tipo di dipendenze che sussistono fra gli elementi di un chunk, e del
modo in cui sono rappresentate le dipendenze non decidibili che sussistono fra chunks.
3.3.2.4.1
Rappresentazione interna dei chunks
Ogni chunk è una struttura sintatticamente organizzata, che mostra la natura ed il raggio delle
dipendenze che sussistono tra le parole al suo interno. Ogni chunk è descritto da un insieme di
coppie attributo-valore la cui configurazione varia a seconda del tipo e della categoria di chunk. Nel
caso dei chunk di tipo “sintagmatico” (ovvero che possiedono un potential governor, vedi sopra,
sez. 3.3.2.2), due attributi sono obbligatoriamente specificati: a) la Categoria del Chunk (CC), i cui
valori possibili sono quelli descritti nella sezione 3.3.2.3; e b) il POTential GOVernor (POTGOV), il
cui valore è il lemma del potential governor, specificato per la categoria morfosintattica e per altri
tratti morfosintattici. La rappresentazione è esemplificata qui sotto per il chunk elementare “la
legislazione”:
(1)
[ [CC: N_C] [POTGOV:
legislazione#SF] ]
Questa struttura di base può contenere ulteriori attributi. Ad esempio, nel caso di chunks di tipo
preposizionale e infinitivo un attributo PREP specifica la preposizione che “introduce” il chunk,
mentre un attributo MOD specifica i premodificatori aggettivali (ovvero che si trovano fra un
determinatore ed un potential governor) in chunks di tipo nominale e preposizionale. Ad esempio:
(2)
a questo riguardo
[ [CC: P_C] [PREP: a] [POTGOV:
(3)
riguardo#SM] ]
per verificare
[ [CC: I_C] [PREP: per] [POTGOV:
(3)
verificare#VTP] ]
un bravo bambino
[ [CC: N_C] [MOD: bravo] [POTGOV:
bambino#SM] ]
I chunks verbali (FV_C, I_C) possono inoltre contenere indicazione del seguente insieme di
elementi:
•
(4)
il pronome o i pronomi clitici (CLIT) che occorrono in congiunzione con la forma verbale:
lo disse
E-196
[ [CC: FV_C] [CLIT: lo] [POTGOV:
(5)
farlo
[ [CC: FV_C] [CLIT: lo] [POTGOV:
•
dire#VT] ]
fare#VT] ]
l’ausiliare (AUX) usato nelle forme verbali perifrastiche:
(6)
è stata trasmessa
[ [CC: FV_C] [AUX: essere] [POTGOV:
(7)
ha dichiarato
[ [CC: FV_C] [AUX: avere] [POTGOV:
•
dichiarare#VTR] ]
il verbo modale (MODAL) usato nelle costruzioni modali:
(8)
che possono essere sbarcati
[ [CC: FV_C] [INTRO:
sbarcare#VTI] ]
•
trasmettere#VT] ]
che]
[AUX:
essere]
[MODAL:
potere]
[POTGOV:
il verbo causativo (CAUS) usato nelle costruzioni causative:
(9)
lascia intendere
[ [CC: FV_C] [CAUS: lasciare] [POTGOV:
intendere#VTIPB] ]
Le congiunzioni coordinative e subordinative se immediatamente seguite da un gruppo verbale
sono incluse nel chunk verbale corrispondente e registrate come valore dell’attributo CONJ:
(10)
dove si trova
[ [CC: FV_C] [CONJ: dove] [CLIT: si] [POTGOV:
trovare#VTBP] ]
Si ricordi che le congiunzioni che non sono immediatamente seguite da un chunk verbale come
in DOVE LA MIA FAMIGLIA SI TROVA sono trattate come chunks indipendenti (C_C).
Analogamente, la congiunzione o pronome CHE se immediatamente seguite da un gruppo
verbale, sono incluse nel chunk verbale e registrate come valore dell’attributo INTRO. Se invece
non sono immediatamente seguite da un chunk verbale sono segmentate separatamente, come un
che_C (vedi sopra, sez. 3.3.2.3.11):
(11)
che possono essere sbarcati
[ [CC: FV_C] [INTRO:
sbarcare#VTI] ]
(12)
che]
[AUX:
essere]
[MODAL:
potere]
[POTGOV:
che lui dice
[CC: che_C] [ [ CC: N_C] [POTGOV: lui#PP@MS] ] [ [CC: FV_C] [POTGOV:
dire#VTI] ]
E-197
3.3.2.4.2
Dipendenze tra chunks distinti
Quelle dipendenze che non possono essere identificate in modo non ambiguo per natura ed
estensione sono distribuite su chunks distinti. A scopo illustrativo, si consideri il sintagma insiemi di
leggi utili, dove l’aggettivo utili può entrare in due catene di dipendenza distinte, a seconda
dell’interpretazione:
insiemi di leggi utili
insiemi di leggi utili
L’output dell’analisi in chunks è compatibile con entrambe le interpretazioni, dal momento che i
potential governors di UTILE (INSIEME e LEGGE), così come lo stesso UTILE, sono assegnati a chunks
distinti, rispettivamente ad un chunk nominale, ad uno preposizionale e ad un chunk aggettivale:
[ [CC: N_C] [POTGOV:
insieme#SM] ]
[ [CC: P_C] [PREP: di] [POTGOV:
[ [CC: ADJ_C] [POTGOV:
legge#SF] ]
utile#A] ]
3.3.3 Applicazione dello schema all’analisi del parlato
Nel corso della rassegna degli schemi di annotazione sintattica (vedi parte II, sez. 2) abbiamo
evidenziato un insieme di fenomeni che devono poter essere trattati da uno schema di annotazione
del parlato perché questo possa considerarsi sufficientemente completo. Come è già stato accennato
in 3.3.1, l’annotazione a costituenti immediati si presta naturalmente, per le sue caratteristiche
intrinseche, a trattare fenomeni sintattici specifici del linguaggio parlato, anche, e diremmo nel
nostro caso soprattutto, per quel che riguarda quella varietà di parlato particolarmente frammentata
e ancorata al contesto comunicativo che si realizza attraverso lo scambio dialogico. Infatti
l’annotazione a costituenti sintattici immediati, evitando l’uso di strutture “incassate”, e cioè di
unità sintattiche complesse (come ad esempio il sintagma frasale F) che contengono al loro interno
unità più semplici (ad es. i sintagmi nominale SN e verbale SV), individua nel cosiddetto chunk la
sola unità sintattica di riferimento. In questo modo si evita l’inconveniente, in qualche misura
paradossale, di dover ripensare radicalmente il sistema di regole sintattiche messe a punto per il
trattamento della lingua scritta nel passaggio ad un’analisi della lingua parlata. E’ infatti a livello
dell’organizzazione dei costituenti sintattici maggiori, o non immediati, e tra questi principalmente
a livello di organizzazione della frase nel suo complesso, che si evidenziano le discrepanze più
significative tra l’organizzazione sintattica del parlato e quella dello scritto (Voghera 1992), al
punto da dover concludere che la riscrittura canonica della frase come F → SN SV è semplicemente
inadeguata per una descrizione accurata del parlato. D’altra parte è ragionevole attendersi che il
linguaggio parlato e quello scritto si avvalgano fondamentalmente degli stessi procedimenti di
organizzazione interna dei costituenti sintattici immediati, distanziandosi semmai nel modo in cui
questi costituenti a) si dispongono linearmente, b) si co-selezionano in sequenze minime
grammaticalmente accettabili, e c) infine realizzano loro funzione comunicativa: in una sola
espressione, al livello di quelle relazioni inter-sintagmatiche che un’analisi a costituenti immediati
semplicemente non codifica.
E-198
E’ possibile individuare almeno quattro diversi tipi di problemi sintattici relativi all’analisi del
linguaggio parlato (Voghera 1992):
1) presenza di sintagmi interrotti o distribuiti su più turni
Leibniz è innanzitutto # il suo mestiere è innanzitutto quello di ingegnere
2) presenza di enunciati predicativi a testa non verbale:
bella questa casa!
da domani # dieta
3) presenza di enunciati formati da unità sintattiche dai confini incerti
scherzi spero
c’è poi una lunga lista un vero minestrone
i click si producono premendo diciamo schiacciando la parte mobile
4) trattamento di fenomeni tipici del parlato, quali interiezioni, riempitivi di pause o segnali di
esitazione
ma non lo posso fare perché l'ho fatto da+ ehm nell'altra direzione
Qui di seguito daremo alcune indicazioni generali relative alle strategie che possono essere
utilmente adottate per affrontare questi problemi nel quadro di un sistema di annotazione sintattica a
costituenti immediati, ed evidenzieremo al tempo stesso alcuni degli adattamenti che si sono resi
necessari.
3.3.3.1 Incompletezze sintattiche o costituenti parziali
Le incompletezze sintattiche si verificano in tutti quei casi in cui un parlante non completa una
enunciazione, a causa vuoi di una interruzione spontanea (eventualmente motivata dall’esigenza
metalinguistica di usare un’espressione più chiara o appropriata), vuoi di una qualsiasi altra
corruzione del processo di produzione, come nel caso dell’interruzione da parte di un altro parlante.
Nel par. 3.2.3 abbiamo affrontato il fenomeno dei frammenti di parola come un problema per
l’annotazione morfosintattica. A livello sintattico si presenta un problema analogo di frammenti di
costituenti, dove un costituente è interrotto prima del suo completamento. Per gli approcci
tradizionali basati su un’analisi sintattica a costituenti incassati, il fenomeno dei costituenti parziali
rappresenta una caratteristica estremamente problematica del parlato, perché per poter costruire una
unità sintattica massima è necessario fare delle ipotesi relativamente al costituente interrotto. Un
caso a parte è rappresentato dall’annotazione delle sequenze di correzione, per le quali in un’analisi
a costituenti classica si pone il problema se espungere la sequenza soggetta a correzione o
riformulazione, oppure se inglobarla nella più ampia struttura della correzione.
Dal punto di vista dell’analisi automatica a costituenti immediati che, lo ripetiamo, non implica il
controllo di consistenza dei livelli di incassamento strutturale ad un livello superiore a quello dei
costituenti non ricorsivi, l’occorrenza di costituenti incompleti non costituisce di per sé un problema
insormontabile. La struttura incompleta viene segnalata come un chunk (erroneo) di categoria
sconosciuta, ma nulla viene detto sulla relazione tra la struttura appena individuata e il testo che
segue. Il chunk sconosciuto si chiude di fronte alla prima parola del testo incompatibile con l’analisi
in corso, lasciando naturalmente fuori quest’ultima. Da questo punto del testo in avanti l’analisi
riprende markovianamente da zero, cioè senza memoria del fallimento appena incontrato.
E-199
Questa situazione, sebbene ricorrente, non è immune da incidenti di percorso. Ad esempio, va
sottolineato il fatto che l’analisi a costituenti immediati presuppone un testo già etichettato
morfosintatticamente. E’ ragionevole attendersi che sequenze interrotte, riprese, autocorrezioni e
fenomeni analoghi introducano errori nel corso dell’etichettatura morfosintattica, portando
inevitabilmente fuori strada l’analisi a costituenti. Una parte considerevole del lavoro di
adattamento al parlato di un software sviluppato per l’analisi morfosintattica e sintattica dello scritto
consiste nel rendere il software stesso meno sensibile alle deformazioni testuali frequenti nel
linguaggio parlato.
Lo scenario descritto finora ignora la possibilità che il testo da analizzare sia costituito non da
una pura trascrizione ortografica del documento sonoro originale, ma da una trascrizione in qualche
modo “emendata”. In quest’ultimo caso, come abbiamo già visto, almeno alcune delle cause di
incompletezza dei costituenti immediati verrebbero ad essere segnalate dall’annotatore. Il software
di analisi sintattica potrebbe far tesoro di questi marcatori aggiunti, e generare su questa base, in
fase di pre-elaborazione, una sequenza di etichette morfosintatticamente coerente sulla quale
operare l’analisi a costituenti vera e propria. L’utilità di questa operazione è evidente quando si
consideri una categoria particolare di costituenti interrotti, quelli distribuiti su più turni.
La distribuzione di un costituente su più turni si può manifestare in due modi diversi: a) come
completamento da parte dell’interlocutore B di un’espressione linguistica parziale enunciata
dall’interlocutore A; e b) come completamento di un’espressione linguistica parziale enunciata
dall’interlocutore A da parte dello stesso interlocutore, a seguito di un’alternanza momentanea di
turno. E’ ovvio che dal punto di vista dell’annotazione a costituenti immediati, questo tipo di
distribuzione causa problemi solo nel caso in cui sia il costituente immediato ad essere soggetto a
completamento su più turni. Un’annotazione automatica non può che limitarsi ad evidenziare la
struttura incompleta come “erronea”. In fase di correzione manuale, è ragionevole ipotizzare che la
struttura erronea venga specificata come incompleta, eventualmente attraverso il riferimento
appropriato alla sequenza di parole che ne consentono il completamento. Si consideri ad esempio il
caso seguente:
(1)
descrivigli un ce+ un mezzo cerchio
[ [ CC: FV_C] descrivigli]
[ [ CC: X_C] un]
[ [ CC: X_C] ce+]
[ [ CC: N_C] [ POTGOV: CERCHIO#S@MS] un mezzo cerchio]
In questo caso, il fallimento dell’analisi è ben localizzato nei due sintagmi non riconosciuti (ed
annotati come X_C) e non pregiudica le analisi successive al punto in cui il fallimento è avvenuto.
L’intervento manuale dell’annotatore si può ragionevolmente limitare ad una specificazione della
natura dell’errore, ad esempio come costituente interrotto e poi ripreso. In altri casi, tuttavia, il
fallimento indotto dall’interruzione ha ripercussioni sulle analisi successive. Questo avviene, in
particolare, quando il costituente incompleto viene completato ad un turno successivo senza ripresa
della sequenza interrotta, come illustrato dall’esempio seguente:
(2)
A01: allora tra parentesi quadre noi mettiamo la …
E-200
[ [ CC: ADV_C] allora]
[ [ CC: P_C] tra parentesi]
[ [ CC: ADJ_C] quadre]
[ [ CC: N_C] noi]
[ [ CC: FV_C] mettiamo]
[ [ CC: X_C]
la]
B01: trascrizione fonetica
[ [ CC: N_C] trascrizione]
[ [ CC: ADJ_C] fonetica]
Chiaramente, in questo caso l’annotatore manuale non dovrebbe limitarsi a caratterizzare come
interrotto il costituente incompleto che comincia con la ([ [ CC: X_C] la]). Un’analisi esaustiva
deve mettere in evidenza che la sequenza la trascrizione fonetica forma un unico costituente
nominale. Automatizzare questo processo sarebbe desiderabile, ma oggettivamente assai complesso.
Si tenga presente, infatti, che il completamento del costituente interrotto può non essere contenuto
nel turno immediatamente seguente, ma, come sottolineato in precedenza al punto b), nella ripresa
del turno di A. Se si considera infine che, in molti casi, a un costituente incompleto può non fare
seguito alcun completamento, diventa chiaro che l’automatizzazione di un tale compito può
rivelarsi estremamente complessa. In alternativa, sarebbe teoricamente auspicabile che l’annotatore
manuale evidenzi casi di ripresa su più turni in fase preliminare, a livello di trascrizione emendata,
ad esempio annotando la natura incompleta della sequenza interrotta, con indicazione di dove si
trovi il suo completamento. Si noti, a questo proposito, che la sintassi del linguaggio di mark-up
testuale XML offre una serie di strumenti di annotazione formale particolarmente adatti per questo
tipo di usi. Il software per l’annotazione automatica dovrebbe essere quindi messo in condizione di
interpretare correttamente il testo emendato in XML, e di ricostruire ed annotare in questo modo la
struttura a completamento. Sebbene desiderabile, questa strategia non è al momento implementata.
Vale la pena, infine, mettere in evidenza un limite interessante della strategia di normalizzazione
del testo, alla luce di casi di riformulazione con costituenti interrotti. Si consideri l’esempio
seguente:
Leibniz è innanzitutto # il suo mestiere è innanzitutto quello di ingegnere
Si noti che la sequenza successiva alla pausa (indicata come #) viene enunciata col chiaro intento di
sostituire l’intera sequenza precedente la pausa stessa e poi interrotta (Leibniz è innanzitutto).
Tuttavia, sarebbe impossibile comprendere l’enunciazione sostitutiva senza fare riferimento a
Leibniz come referenzialmente implicato da suo. Sebbene sintatticamente rimpiazzato, l’enunciato
sospeso è comunque pragmaticamente implicato dalla riformulazione sostitutiva. Un approccio
normalizzante sarebbe per definizione incapace di stabilire questa correlazione.
3.3.3.2 Enunciati predicativi a testa non verbale
Dal punto di vista di un’analisi sintattica a costituenti, il problema delle frasi a testa non verbale,
o dalla testa verbale ellittica, rappresenta una seria difficoltà per quei sistemi a regole che
presuppongono una struttura frasale canonica del tipo F → SN SV. Dal nostro punto di vista,
l’annotazione si limiterà a prendere atto del fatto che in un’espressione del tipo bella questa casa!
E-201
esiste un costituente aggettivale ADJ_C immediatamente seguito da un costituente nominale N_C. Le
regole per la costruzione dei due costituenti sono indipendentemente motivate dalla necessità di
analizzare costruzioni predicative “normali” del tipo questa casa è ariosa e bella, laddove
l’aggettivo ariosa viene a costituire un unico chunk con la copula che lo precede (BE_C), mentre
l’aggettivo bella viene analizzato separatamente come un chunk indipendente, a causa
dell’interposizione della congiunzione e. Si noti infine che nelle espressioni pragmaticamente affini
bella casa! e una bella casa! l’aggettivo bella verrebbe a formare un unico chunk nominale con il
sostantivo che segue. Questo fatto sembra evidenziare che non è possibile stabilire una
corrispondenza biunivoca tra struttura a costituenti immediati e relazioni predicative tra costituenti.
Allo stesso modo, un aggettivo in funzione attributiva è assegnato a costituenti immediati diversi a
seconda che sia collocato in posizione pre-nominale (un bel libro) o post-nominale (un libro rosso).
Si osservi per inciso che la relazione predicativa tra bella e casa può in ogni caso essere recuperata
a livello di annotazione funzionale, come suggerito dalle specifiche tecniche per l’annotazione
sintattica funzionale del tema TreeBank in SI-TAL.
3.3.3.3 Enunciati formati da unità sintattiche dai confini incerti
In un’espressione come scherzi spero la relazione tra i due verbi finiti è solo in apparenza
paratattica. Voghera (1992) suggerisce in modo persuasivo che scherzi sia in realtà in relazione di
dipendenza ipotattica rispetto al verbo principale spero, con anticipazione enfatica della subordinata
ed omissione del che (equivalente a spero che scherzi). Si tratta di una costruzione in qualche modo
anomala, certamente tipica di un registro informale di parlato dialogico, che pone seri problemi a
livello di ricostruzione complessiva dell’albero di frase, soprattutto in mancanza di informazione
intonativa, che svolge in questo caso un importante ruolo di marcatore ipotattico. A livello di
costituenti immediati, i due verbi verrebbero ad essere annotati come appartenenti a costituenti
distinti, entrambi verbali di modo finito (FV_C), mentre la loro relazione reciproca verrebbe lasciata
indefinita.
Nell’enunciato i click si producono premendo diciamo schiacciando la parte mobile, non è chiara
la relazione sintattica tra i due verbi al gerundio evidenziati in grassetto. In qualche modo,
schiacciando è una riformulazione di premendo come evidenziato dall’inciso metalinguistico
diciamo. D’altra parte, sarebbe certamente una forzatura interpretare schiacciando come una
correzione intesa a rimpiazzare il precedente premendo: in qualche modo, premendo e
schiacciando sembrano piuttosto condividere lo stesso sintagma nominale oggetto (la parte
mobile). Non è affatto chiaro, tuttavia, come una struttura a costituenti ricorsiva possa
rappresentare, senza sostanziali stravolgimenti delle regole di riscrittura, la relazione paratattica tra
premendo e schiacciando, complicata dall’interposizione di una dichiarativa parentetica con valore
metalinguistico di segnalatore della riformulazione, e dalla condivisione del sintagma nominale
oggetto. Ancora una volta, un’analisi a costituenti immediati si limiterebbe all’individuazione delle
strutture terminali non ricorsive G_C FV_C G_C N_C (Chunk Gerundivo, Chunk Verbale Finito,
Chunk Gerundivo, Chunk Nominale), senza affrontare il problema della loro complessa
interrelazione.
3.3.3.4 Interiezioni, riempitivi di pause e segnali di esitazione
In questa sezione, ci limitiamo a considerare brevemente il trattamento sintattico di una serie di
fenomeni non tutti esclusivi del parlato, ma che tuttavia si impongono in questo contesto
all’attenzione dell’annotatore a causa della loro frequenza. E’ naturale attendersi che questo fatto
abbia ripercussioni sull’adattamento al parlato dell’analisi sintattica a costituenti immediati
sviluppata per il linguaggio scritto.
E-202
Ad esempio, si è resa necessaria l’introduzione di un chunk interiettivo (EX_C) che racchiuda
tutte quelle espressioni categorizzate come interiezioni a livello morfosintattico (vedi 3.2.2.4).
[ [ CC: EX_C] ah]
[ [ CC: N_C] quella]
[ [ CC: ADV_C] più]
[ [ CC: P_C] in alto]
Analogamente, i riempitivi di pause o le esitazioni sono trattati in modo non problematico
considerandoli equivalenti ai segni di punteggiatura, e marcati mediante la categoria E_C, come
illustrato dall’esempio seguente:
[ [ CC: FV_C] ma non lo posso fare]
[ [ CC: FV_C] perché l’ho fatto]
[ [CC: X_C] da+]
[ [ CC: E_C] ehm]
[ [ CC: P_C] nell’ altra direzione]
3.3.4 Conclusioni
In questa sezione abbiamo illustrato le specifiche di annotazione relative al livello sintattico. E’
stato proposto uno schema di annotazione basato su un’analisi sintattica a costituenti immediati,
nella particolare accezione sviluppata definita “chunking”. L’approccio “minimalista” allo shallow
parsing descritto nelle pagine precedenti segmenta un testo in unità che possono essere identificate
con certezza sulla base di informazione linguistica limitata. Queste unità, denominate chunks,
ricevono una rappresentaizone strutturata nella quale sono esplicitati i legami di dipendenza fra gli
elementi.
Il processo di chunking si ferma al livello di granularità oltre il quale l’analisi diventa non
decidibile, ovvero quando più di un’analisi sintattica è possibile sulla base dell’informazione
linguistica disponibile.
I vantaggi di uno schema di annotazione a costituenti immediati sono molteplici, e sia di ordine
teorico che pratico. In primo luogo, questo schema appare particolarmente adeguato in rapporto alla
varietà parlata della lingua, che contiene numerosi esempi di incompletezze sintattiche, anacoluti,
blendings, extraposizioni, ecc.
Quando più di un’analisi sintattica è possibile, l’output del chunking non è compromesso con
nessuna decisione, pur restando compatibile con tutte. Nel caso della cosiddetta “undergeneration”,
un fallimento del chunking, dato il carattere locale dell’analisi non coinvolge mai l’intera frase (o
enunciazione, o turno), ma riguarda una porzione limitata del testo. Di conseguenza, i chunks non
E-203
identificati non bloccano mai il processo di chunking come invece succede nel caso di analisi
sintattiche basate su grammatiche generative.
Il Chunker può anche essere concepito come il primo componente di un complesso sistema di
analisi sintattica, dove questo componente iniziale produce uno schema sintattico suscettibile di
revisione e modifica a stadi successivi dell’analisi. La rappresentazione prodotta in output dal
Chunker è compatibile con le analisi sintattiche a costituenti e a dipendenze. Per esempio, un
sintagma nominale come una interessante ricerca scientifica risulterebbe in una rappresentazione a
chunks di questo tipo:
[ [CC: N_C] [MOD:
interessante] [POTGOV:
[ [CC: ADJ_C] [POTGOV:
ricerca#SF] ]
scientifico#AF] ]
Le corrispondenti rappresentazioni a dipendenze e a costituenti (in 1 e 2 sotto) verrebbero poi
computate prendendo come input l’output della rappresentazione in chunks:
(1)
...... una interessante ricerca scientifica
(2)
[NP una [ADJP interessante ADJP] ricerca [ADJP scientifica ADJP] NP]
In (1), l’arco tratteggiato rappresenta il legame di dipendenza che non è rappresentato
esplicitamente all’interno della rappresentazione a chunks, che tuttavia già isola gli elementi
rilevanti di questa catena di dipendenza, ovvero i potential governors dei chunks N_C e ADJ_C. In
(2), il sintagma nominale con i suoi pre- e post-modificatori è il risultato della ricombinazione del
chunk nominale (che include il premodificatore nominale) con il chunk aggettivale postnominale.
E’ interessante notare che in entrambi i casi le decisioni prese monotonicamente dal Chunker si
connettono a livelli di analisi più elaborati in cui tutta la struttura linguistica è identificata
correttamente. Nessuna revisione coinvolge mai la decomposizione dei chunks esistenti. Questo
significa che un chunk potrebbe, in alcuni casi, non includere tutta l’informazione linguistica
rilevante, ma rappresenta comunque il nocciolo di una struttura sintattica più inclusiva. In altre
parole, ogni chunk rappresenta una specie di “atomo sintattico”, che strutture identificate a livelli di
analisi successivi possono contenere (o esserne contenuti) soltanto nella sua integrità.
E-204
4 Livello concettuale
E-205
4.1
Introduzione
Come già discusso, la principale caratteristica del livello di annotazione concettuale è forse la
sua stretta dipendenza dal dominio applicativo. D’altra parte, risulta piuttosto svantaggioso
rinunciare a priori ad ogni possibile definizione che sia sufficientemente portabile e indipendente
dal dominio, perché queste sono le componenti cruciali per rendere possibile l’uso dello schema
proposto in modo sufficientemente generale.
Come già accennato nell’introduzione, è determinante non solo il riutilizzo dello schema
proposto così com’è per l’annotazione di nuovi corpora, ma anche la possibilità di estenderlo in
modo da ottenere annotazioni su corpora diversi, magari in domini diversi che siano tuttavia
compatibili. Questo permette, ad esempio, di sfruttare la presenza di fenomeni comuni tra i due
domini per lo sviluppo delle applicazioni di interesse.
In quest’ottica, in questa parte del lavoro cercheremo di discutere tutte le caratteristiche di questo
livello di annotazione per cui ogni decisione possa venir presa a prescindere dal dominio
applicativo.
4.2
Discussione
Le finalità dello schema di annotazione proposto dovrebbero essere duplici:
1. essere adeguate a descrivere tutta e sola l’informazione necessaria, al fine di supportarne
l’elaborazione automatica;
2. facilitare il più possibile il riutilizzo dei dati, l’integrazione di corpora diversi e quindi di
schemi sviluppati per domini diversi.
Per avere un’annotazione omogenea anche su domini diversi occorre prima di tutto seguire una
sintassi uniforme. La proposta più ragionevole ci sembra quella di usare uno schema argomentopredicato, che è d’altronde la soluzione più diffusa. Sempre a livello di sintassi dello schema,
occorre anche definire sui valori alcune operazioni di base in modo da poter ottenere quanto meno
liste, congiunzioni e disgiunzioni di valori.
Per quel che riguarda la lista dei concetti da considerare per un particolare dominio, ci pare che
sia interessante la soluzione proposta da VERBMOBIL, ovvero di dividere lo schema in diverse parti,
e in particolare di partizionare i concetti da annotare in due grandi insiemi: concetti dipendenti dal
dominio e concetti indipendenti dal dominio. Alla seconda classe appartengono ad esempio le
espressioni temporali, per cui VERBMOBIL ha proposto uno schema specifico. Per ogni dominio,
andrà poi definita la lista degli argomenti, ma in modo che questo compito sia il più possibile
facilitato, che la sintassi dell’annotazione sia omogenea, in modo da funzionare anche per dialoghi
che spaziano su domini diversi.
Come discusso nel paragrafo 3, parte I di questo capitolo, la completezza dello schema rispetto al
dominio può essere giudicata solamente a fronte di applicazioni reali. Tuttavia, perché uno schema
possa essere utilizzato in tutti i casi, occorre che sia in grado di annotare tutti i concetti legati al
dominio considerato, a prescindere dall’applicazione specifica. In questo modo, l’utente interessato
solo ad un sottoinsieme dei possibili valori potrà semplicemente restringere lo schema.
E-206
Un’altra scelta riguarda a cosa riferire i singoli concetti: come visto, tutti gli schemi di
annotazione che abbiamo analizzato li riferiscono all'enunciato a cui appartengono. L’altra
possibilità è di isolare la sottostringa a cui si riferiscono. Questo si può fare in due modi:
1. definizione “minima”: quella sottostringa che corrisponde al concetto e tale per cui nessuna
delle rispettive sottostringhe potrebbe essere associata allo stesso concetto (quindi in “c’è un
treno diretto a roma” => <concetto destinazione="roma">roma</concetto>; il
problema qui è che si sgancia dell’informazione che permette di classificare il concetto come
destinazione; questo viene ad essere uno svantaggio ad esempio in applicazioni di
apprendimento automatico
2. definizione “massima”: quella sottostringa che corrisponde al concetto e tale per cui non è
una sottostringa propria di alcun altra sottostringa che potrebbe essere associata allo stesso
concetto (quindi in “c’è un treno diretto a roma” => <concetto
destinazione="roma">diretto a roma</concetto>.
Pro e contro delle due scelte:
1. associata all’enunciato: permette di aver strategie chiare e ben definite in tutti i casi ambigui
(correzioni, ripetizioni, ....) - questo è probabilmente il motivo per cui questa è la scelta più
diffusa;
2. associata alla sottostringa: si adatta bene ad applicazioni di apprendimento automatico,
soprattutto se supervisionati; potrebbe invece adattarsi ad approcci non supervisionati o
parzialmente supervisionati, che usano solo l’informazione se il concetto c’è o meno nella frase.
4.3
Proposta
4.3.1 Espressioni temporali
Lo schema di annotazione proposto da TEL in Verbmobil è molto completo e offre uno standard
adeguato a rappresentare le espressioni temporali in domini anche molto diversi tra loro. D’altra
parte, le espressioni temporali costituiscono una parte molto importante nella maggior parte delle
applicazioni di interesse. Risulta quindi molto importante poter avere al proposito uno schema di
annotazione standard, estendibile e quindi portabile su domini diversi. Inoltre per TEL è stata
dimostrata la portabilità anche su lingue diverse, quanto meno per Inglese e Tedesco.
TEL deriva da una versione precedente adottata in Verbmobil per l’annotazione delle espressioni
temporali, ZeitGram (Küssner & Stede, 1995). Avendone provati nella pratica i limiti, è stato
definito TEL in modo da risolvere i problemi precedentemente evidenziati. La descrizione che
segue è stata tratta dal rapporto di Verbmobil (Endriß, 1998).
TEL è descritto mediante la grammatica libera dal contesto che genera il linguaggio di tutte e
sole le espressioni di TEL. Tale grammatica è data in forma di Backus-Naur. La parte destra di
ogni produzione può contenere simboli terminali, non terminali o funzioni, quali ad esempio
functor(arg1,arg2). Vengono inoltre usati particolari metasimboli per definire in modo compatto
produzioni tra loro simili:
<categ1|categ2|...|categN> indica una delle categorie categ1, categ2, ....
Ad esempio, l’espressione
E-207
XXX
::=
<func1|func2>(ARG1,<arg2a|arg2b>)
indica in modo compatto le quattro regole di riscrittura:
XXX
::=
func1(ARG1,arg2a) |
func1(ARG1,arg2rba) |
funcr21(ARG1,arg2a) |
funcr21(ARG1,arg2rba)
TEL consiste dell’unione di tre linguaggi distinti, uno per le durate (DURATION), uno per gli
istanti temporali (POINT) e uno per le date (DATE). Ogni data ha un inizio, una fine e una durata.
Inizio e fine di una data sono istanti temporali. Vengono quindi date le definizioni prima di tutto di
istante temporale e poi di durata. Sulla base di tali definizioni, verranno date le condizioni che le
diverse componenti di una data devono soddisfare. In questo senso, la sintassi di TEL è modulare.
4.3.1.1 Regole per la definizione dei numeri
INTEGER
::= 0 | 1 | -1 | 2 | -2 | 3 | -3 | ...
NUMBER
::= 1 | 2 | 3 | ...
NUMBER0
::= 0 | NUMBER
FRACTION
::= NUMBER | NUMBER:NUMBER | NUMBER:NUMBER:NUMBER
4.3.1.2 Regole per la definizione delle durate
DURATION
::= set(DURATION+) | one_out_of(DURATION+) |
BASIC_DUR | RANGE | OPEN_RANGE | FUZZY_DUR |
ANA_DUR
BASIC_DUR
::= dur(<FRACTION|several>,UNIT)
UNIT
::= years | months | weeks | days | hours | minutes
RANGE
::= range(DURATION,DURATION)
OPEN_RANGE
::= <at_least|at_most|more|less>(DURATION)
FUZZY_DUR
::= fuzzy_dur(DURATION)
ANA_DUR
::= ana_dur
4.3.1.3 Regole per la descrizione degli istanti temporali
4.3.1.3.1
POINT
Livello principale
::= POINT* | set(POINT+) | one_out_of(POINT+) |
not(POINT) | only(POINT,POINT) | BASIC |
E-208
COMPLEX | MODIFIED | FUZZY | QUANTIFIED |
ANA_POINT
GENERIC
::= day | week | month | quarter_year | half_year |
year
MODIFIED
::= MOD(<POINT|GENERIC>)
MOD
::= early | late | begin | middle | end |
firsthalf | secondhalf
FUZZY
::= fuzzy(POINT)
QUANTIFIED
::= quantified(QUANTIFIER,<POINT|GENERIC>) |
quantified(not(QUANTIFIER ),<POINT|GENERIC>) |
quantified(every:NUMBER,COUNTABLE1)
QUANTIFIER
::= NUMBER | several | every
ANA_POINT
::= ana_point | that(<POINT|GENERIC>) |
other(<POINT|GENERIC>)
Espressioni semplici
BASIC
::= now | moh:MOH | tod:TOD | pod:POD | dow:DOW |
pow:POW | DEICTIC_DAY | dom:DOM | woy:WOY|
month:MONTH | season:SEASON | qoy:QOY |
hoy:HOY | year:YEAR | holiday | holiday:HOLIDAY
MOH
::= NUMBER0
TOD
::= NUMBER0:NUMBER0
POD
::= am | pm | morning | morning_ger1 | morning_ger2 |
midday | afternoon | evening | night | daytime
DOW
::= mon | tue | wed | thu | fri | sat | sun
POW
::= workday | weekend
DEICTIC_DAY
::= today | tomorrow | yesterday |
deictic_day:INTEGER
DOM
::= NUMBER
WOY
::= NUMBER
MONTH
::= jan | feb | mar | apr | may | jun | jul | aug |
sep | oct | nov | dec
SEASON
::= spring | summer | fall | winter
QOY
::= NUMBER
HOY
::= NUMBER
YEAR
::= NUMBER
HOLIDAY
::= capodanno | pasqua | lunedi_dell_angelo | primo_maggio |
E-209
venticinque_aprile | ferragosto | morti | santi | ascensione |
immacolata_concezione | festa_del_patrono | ringraziamento
Espressioni complesse
COMPLEX
::= LIMIT | LIMITS | SHIFTED | RELATED | ORDINAL |
DEICTIC
LIMIT
::= BEFORE_AFTER(POINT)
LIMITS
::= between(POINT,POINT) | min_between(POINT,POINT)
SHIFTED
::= <pos_shift|neg_shift>(DURATION,POINT) |
<in|ago>(DURATION)
RELATED
::= the_around(COUNTABLE,POINT) |
week_between(POINT,POINT) |
<the_before|the_after>(NUMBER,COUNTABLE,POINT) |
<the_before|the_after>(COUNTABLE,POINT) |
<dow_before|dow_after>(dow:DOW,DURATION,POINT) |
<dow_before|dow_after>(dow:DOW,DURATION)
ORDINAL
::= of(NUMBER,COUNTABLE,<POINT|GENERIC>) |
last_of(NUMBER,COUNTABLE,<POINT|GENERIC>) |
last_of(COUNTABLE,<POINT|GENERIC>)
DEICTIC
::= this(COUNTABLE) | next(COUNTABLE) |
last(COUNTABLE) | deictic(INTEGER,COUNTABLE)
BEFORE_AFTER
::= before | after | in_before | in_after |
ex_before | ex_after
COUNTABLE
::= COUNTABLE1 | int:DURATION
COUNTABLE1
::= GENERIC | pod:POD | dow:DOW | pow:POW |
dom:DOM | season:SEASON | holiday |
holiday:HOLIDAY | ana_point
Regole per definire una data
TEMPEX
::= tempex(NAME,DATE)
DATE
::= DATE* | set(DATE+) | one_out_of(DATE+) |
not(DATE) | for:DURATION | POINTLABEL:POINT |
POINTLABEL+:POINT
POINTLABEL
::= from | to | during | interval | statement
Al fine di mantenere la scelta iniziale di avere un’annotazione di tipo predicato-argomento, TEL
verrà leggermente modificato, considerando la sintassi considerata per quel che riguarda la
descrizione della struttura degli argomenti, ma aggiungendo comunque sempre il predicato a cui
l’argomento si riferisce, ovvero il simbolo della parte sinistra della regola. Questo rischia di rendere
l’annotazione ridondante, ma d’altra parte favorisce la leggibilità del testo annotato. Se ad esempio
riprendiamo gli esempi considerati nella descrizione dello stato dell'arte dell’annotazione
concettuale, otterremmo:
sechzen Uhr (le sedici) => [from:[tod:4:0,pod:pm]] => date=(from=(tod=4:0, pod=pm))
E-210
From
ten
to
twelve
(dalle
dieci
[interval:min_between([tod:10:0],[tod:12.0])]
(min_between(tod=10:0, tod=12:0))
alle
=>
dodici)
interval
=>
=
the twenty ninth thirtieth and thirty first (il 29 30 e 31) => [from:set(dom:29,dom:30,dom:31)]
=>
date=(from=(set=(dom=29, dom=30, dom=31)))
4.3.1.4 Altre espressioni indipendenti dal dominio
Non ci sono altre classi di espressioni indipendenti dal dominio sufficientemente estese e
generali per cui valga la pena di considerare il problema a se stante.
4.3.2 Espressioni dipendenti dal dominio
La parte dipendente dal dominio verrà specificata nella Linea 1.2 del progetto. Per la codifica di
queste espressioni verrà valutata la possibilità di adottare una strategia di rappresentazione
conforme a quella sviluppata nel tema ItalWordNet, ovvero del tipo rete semantica. In tal modo
sarebbe possibile armonizzare l’annotazione semantico-concettuale nel tema Dialoghi con
l’annotazione semantica del corpus nel tema Treebank, utilizzando un comune riferimento alla
risorsa ItalWordNet. A tale scopo, tuttavia, è necessario verificare che la terminologia relativa al
dominio possa organizzarsi secondo le modalità tipiche di una rete semantica. In caso positivo,
questa sorta di rete semantica terminologica aggiuntiva costituirà un’estensione di ItalWordNet, che
potrà venire vantaggiosamente usata in fase di utilizzo dei corpora per lo sviluppo di sistemi
automatici. Infatti, ItalWordNet potrà dare utili suggerimenti per considerare gruppi di sinonimi
come equivalenti nell’applicazione.
E-211
5 Livello pragmatico
E-212
5.1
Valutazione degli schemi di annotazione
Nella prima sezione di questo rapporto è stata effettuata una descrizione degli schemi di
annotazione per il livello prosodico attualmente esistenti allo scopo di fornire un quadro della realtà
di partenza il più completo possibile. Si passerà ora a confrontare e valutare gli schemi di
annotazione in precedenza presentati.
Secondo quanto indicato nel deliverable del progetto MATE (Klein et al. 1999), gli schemi di
annotazione verranno valutati in base alle seguenti linee guida:
•
Orientamento verso un compito specifico: quasi tutti gli schemi esistenti fanno riferimento a
dialoghi che sono volti allo svolgimento di un dato compito. La ricerca nel campo
dell’ingegneria del linguaggio si concentra sull’analisi di dialoghi orientati allo svolgimento di
un determinato compito, dato che in questo campo non è particolarmente utile analizzare
conversazioni ordinarie. I valori utilizzati per l’analisi di questa categoria sono TD (task-driven)
e NTD (non-task-driven).
•
Orientamento verso un’applicazione specifica: anche questo è un parametro rilevante per la
ricerca nel campo dell’ingegneria del linguaggio. La maggior parte dei dialoghi volti alla
realizzazione di un determinato task sono anche orientati verso una specifica applicazione, cioè
indirizzati verso applicazioni commerciali o industriali. D’altro canto altri dialoghi, e di
conseguenza gli schemi usati per la loro annotazione, non sono orientati verso alcuna
applicazione. I valori per l’analisi di questa categoria sono positivo (orientato verso
un’applicazione specifica) e negativo (non orientato verso alcuna applicazione).
•
Restrizione del dominio: la maggior parte dei dialoghi utilizzati nel campo dell’ingegneria del
linguaggio sono ristretti ad un dominio altamente specializzato. Questo rappresenta un
parametro rilevante, poiché gli schemi sono spesso influenzati dal tipo di dominio dei dialoghi
annotati. I valori per questa categoria sono positivo (dominio ristretto) e negativo (dominio non
ristretto). Il valore di tipo positivo può essere ulteriormente categorizzato secondo le seguenti
tipologie di dominio:
TR: viaggio (travel)
TS: trasporto (transport)
COS: sistemi operativi del calcolatore (computer operating systems)
COU: interazioni/dialoghi svoltisi in tribunale (courtroom interaction)
BA: appuntamenti di lavoro (business appointments)
DES: servizi informativi sugli elenchi (directory enquiry services)
FUR: arredare stanze in modo interattivo (furnishing rooms interactively)
DIR: dare indicazioni stradali (giving directions)
INST: dare istruzioni, ad es. riguardanti ricette di cucina (giving instructions)
E-213
•
Tipo di attività: questa categoria fa riferimento al tipo di attività alla quale il dialogo può
appartenere. Questa è un’altra dimensione secondo la quale gli schemi possono essere
classificati. Pare che nell’attuale ricerca sui dialoghi ci sia una divisione tra due principali
paradigmi: compito di cooperazione tra partecipanti umani (ad esempio la negoziazione di
appuntamenti) e compito di raccolta di informazioni, nei quali un agente umano interroga un
sistema automatico (o il surrogato umano di un sistema di dialogo automatico). Qui di seguito
presentiamo una tipologia dei vari tipi di attività:
CN: negoziazione cooperativa (cooperative negotiation)
IE: raccolta di informazioni (information extraction)
PS: risoluzione di problemi (problem solving)
TI: istruzioni (teaching/instruction)
CO: dare consigli (counselling)
CH: fare conversazione (chatting)
•
Partecipazione uomo/macchina:
HH: dialoghi uomo-uomo (human-human dialogues).Questa categoria è ulteriormente divisa in:
MM: mediati dalla macchina (computer, telefono) (machine-mediated)
NMM: non mediati dalla macchina
HM: dialoghi uomo-macchina (human-machine dialogues). Questa categoria è ulteriormente
divisa in:
S: simulati
NS: non simulati
E-214
5.1.1 Tavole di valutazione generale
Nelle tabelle seguenti i risultati delle linee guida ed i criteri adottati per la valutazione vengono
applicati agli schemi precedentemente descritti.
Schemi
ALPARON
CHAT
CHIBA
COCONUT
Manuale di codifica
si
si
si
Si
Numero
3
molto alto
10
2
Esperti
esperti
esperti
esperti
Esperti
500 dialoghi
160MB
22 dialoghi
16 dialoghi
olandese
molti
giapponese
Inglese
2
2
2
2
Orientamento
verso un
compito
TD
(NTD)
TD
TD
Orientamento
verso una
applicazione
si
no
no
Si
DES
no
DIR, BA, TR
FUR
IE
CH
CN, PS
CN
HH, MM
HH, NMM
HH, NMM(?)
HH,MM
(computer)
Valutazione
si (77% di
accordo)
no
si (0.57 < alpha
< 0.68)
Si
Linguaggio di codifica
si, proprio
si, proprio
si, tipo SGML
si, variante di
DAMSL
Strumento software per
l’annotazione
si, codificatore
OVR
si
si, modifica di
dat
si, Nb
Si
no
?
Si
Annotatori
Informazioni Ampiezza
sui dialoghi
annotati
Lingua
Partecipanti
Restrizione
del dominio
Tipo di attività
Partecipazione
umana/della
macchina
E-215
Schemi
CONDON &
CECH
C-STAR
DAMSL
FLAMMIA
Manuale di codifica
Si
si
Si
Si
Numero
5
5
4
7
Esperti
Abbastanza
esperti
esperti
esperti
Allenati
88 dialoghi
230 dialoghi
18 dialoghi
25 dialoghi
Inglese
inglese,
giapponese,
coreano,
italiano
inglese
Inglese
Partecipanti
2
2
2
2
Orientamento verso un
compito
TD
TD
NTD
TD
Orientamento verso una
applicazione
Si
si
No
Si
Restrizione
del dominio
TS
TR
No
DES
Tipo di
attività
CN
CN
Molte
IE
HH, MM,
NMM
HH
HH
HH, MM
Valutazione
si (91% di
accordo
no
si, K=0.56
si, K=0,6+
si, Nb
si
si, DAMSL
Si
l’annotazione
si, Nb
no
si, dat
Si
Si
si
Si
?
Annotatori
sui dialoghi
annotati
Lingua
Partecipazione
umana/della
macchina
E-216
Schemi
Dialogos
GDA
si
Si
Numero
4
?
Esperti
esperti
?
304
?
italiano
Inglese
2
1 (?)
Orientamento
verso un
compito
TD
NTD
Orientamento
verso una
applicazione
si
No
Restrizione
del dominio
TR
No
Tipo di
attività
IE
?
HM, NS
?
Valutazione
no
?
si, stringhe ASCII e SGML
si, SGML
l’annotazione
si
?
si
?
Manuale di codifica
Annotatori
sui dialoghi
annotati
Lingua
Partecipanti
Partecipazione umana/
della
macchina
E-217
Schemi
JANUS
LINLIN
MAPTASK
NAKATANI
Manuale di codifica
si
si
si
Si
Numero
4
4
4
6
Esperti
esperti
esperti
esperti
Inesperti
Molti
140 dialoghi
128 dialoghi
72 dialoghi
inglese
svedese
inglese
Inglese
Partecipanti
2
2
2
1
compito
TD
TD
TD
TD
applicazione
Si
si
si
No
Restrizione
del dominio
BA
TR/TS
DIR
INSTR
Tipo di
attività
CN
IE
PS
TI
Partecipazione
umana/della
macchina
HH
HM, NS
HH, NMM
HH, NMM
Valutazione
si (89% di
accordo)
si (97% di
accordo)
si, K=0.83
No
si, proprio
si, Nb
si, proprio
basato su SGML
si, Nb
l’annotazione
no
si, Nb
si, proprio
si, Nb
si
si
Si
Si
Annotatori
sui dialoghi
annotati
Lingua
E-218
Schemi
SLSA
SWBDDAMSL
TRAUM
VERBMOBIL
Manuale di codifica
Si
si
si
Si
Numero
7
9
3
3
Esperti
esperti
esperti
esperti
Inesperti
100 dialoghi
1155 dialoghi
36 dialoghi
1172 dialoghi
svedese
inglese
inglese
inglese,
giapponese,
tedesco
Partecipanti
2 (?)
2
2
2
compito
TD
NTD
NTD
TD
applicazione
Si
no
si
Si
Restrizione
del dominio
COU
no
no
BA
Tipo di
attività
Molte
molte
CN
CN
HH, NMM
HH, MM
HH, NM
HH, NMM
Valutazione
si (non
pubblicata)
si, 0.8 < K <
0.84
si (non
pubblicata)
si, K=0.84
si, proprio
si, variante di
DAMSL
si, Nb
si, proprio
l’annotazione
Si, TRACTOR
no
si, Nb
si, AnnoTag
si
si
si
Si
Annotatori
Informazio- Ampiezza
ni sui
dialoghi
Lingua
annotati
Partecipazione umana/
della
macchina
E-219
5.1.2 Tavole di confronto delle etichette e dei fenomeni annotati a seconda del dominio
Per sviluppare uno standard riteniamo opportuno confrontare gli schemi in base al task per il
quale sono stati progettati e agli atti linguistici che sono in grado di annotare. Le tabelle seguenti
raggruppano gli schemi a seconda del dominio e mostrano le equivalenze tra gli atti linguistici
annotati.
Dominio: raccolta di informazioni
Alparon
Moves
Flammia
LinLin
Speech Acts
Initiative
Statement
-
Update
Question
Question-Confirm
Question
-
Response
Response
Clarification
-
Answer
-
Confirm
-
(Dialogue Acts)
Check
Alignment
Accept
Reject
Acknowledgement
Acknowledge
Reconfirmation
Repeat
Greeting
-
-
Discourse Management
Bye
Opening
Ending
Continuation
Pause
-
-
Other
-
-
E-220
Dominio: indicazioni stradali
Chiba
Maptask
Initiation
Initiating moves
Inform
Explain
Other assertion
Yes-no-question
Query-yn
Wh-question
Query-w
Check
Align
Request
Instruct
Suggest
Persuasion
Propose
Demand
Promise
-
Response
Response moves
Positive
Reply-y
Negative
Reply-n
Answer
Reply-w
Other response
Clarify
Hold
-
Confirm
-
Acknowledge
Follow-up
-
Understanding
Conventional
-
Opening
Closing
Other initiation
-
E-221
Dominio: organizzazione di appuntamenti
Chiba
Maptask
Initiation
Initiating moves
Inform
Explain
Other assertion
Yes-no-question
Query-yn
Wh-question
Query-w
Check
Align
Request
Instruct
Suggest
Persuasion
Propose
Demand
Promise
-
Response
Response moves
Positive
Reply-y
Negative
Reply-n
Answer
Reply-w
Other response
Clarify
Hold
-
Confirm
-
Acknowledge
Follow-up
-
Understanding
Conventional
-
Opening
Closin
Other initiation
-
E-222
Dominio: generale
DAMLS
SWBD-DAMSL
Traum
Chat
Forward looking
function
Forward
Communicative
Function
Illocutionary
Function
Categories of
Illocutionary Force
Statement
Statement
Inform
Statement;
Assert
Statement-nonopinion
Supp-Inf
AC, CN, DW, ST,
WS
Reassert
Other
Supp-Sug
Statement-opinion
Declarations;
DC, DP
Info-Request
InfluencingAddressee-FutureAction (1)
YNO
Questions;
WHQ
AQ, AA, AN, EQ,
NA, QA, QN, RA,
SA, TA, TQ, YQ,
RQ
Request
Directives (1):
Suggest
RP, RQ
Offer
Commitments:
Yes-No-Question
Wh-Question
Or-Clause
Declarative-YesNo-Question
Declarative-WhQuestion
Tag-Question
Backchannel-inQuestion-Form
Rhetorical-Question
InfluencingAddressee-FutureAction
InfluencingAddressee-FutureAction (2)
Action-directive
Open-Question
Open-Option
Action-Directive
CommittingSpeaker-FutureAction
CommitingSpeaker-FutureAction
Offer
Offers
Commit
Options Commits
FP,PF,SI,TD
Directives (2):
CL, SS
Explicitperformative
Exclamation
-
-
Promise
PD
Backward looking
function
BackwardsCommunicativeFunction
-
-
E-223
Answer
Answer
Eval
Evaluations:
AB, CR, DS, ED,
ET, PM
Yes Answer
No Answer
Affirmative non-yes
answer
Directives (3):
AC
Negative non-no
answer
Other answer
Dispreferred
answers
Agreement
Agreement
Accept
Directives (4):
Accept
Agree/Accept
Reject
Accept-part
Maybe/Accept-part
Check
AD, AL, CS, RD,
GI, GR, DR
Maybe
Reject
Reject
Hold before
answer/agreement
Reject-part
Declarations (2):
ND, YD
Hold
Understanding
Understanding
Grounding
-
-
-
RequestAck
-
Signalunderstanding
ResponseAcknowledgement
Acknowledge
Speech Elicitations:
Acknowledge
Repeat-phrase
Repeat-rephrase
Collaborativecompletion
Completion
CX, EA, EI, EC,
EX, RT, SC
Acknowledge
Summarize/Reformulate
Appreciation
Downplayer
Signal-NonUnderstanding
Signal-NonUnderstanding
Request-Repair
Demands for
clarificaton:
RR
CorrectMisspeaking
-
Other-forwardfunction
Repair
Text editing:
CT
Greet
-
Apologise
Conventionalopening
Conventionalclosing
Thanking
Apology
-
-
-
-
E-224
-
Other
Citation
-
Vocalisation:
YY, OO
Hedge
-
-
-
Markings
CM, EM, EN, ES,
MK, TO, XA
-
-
-
Performances
PR, TX
A proposito delle tabelle sopra riportate è opportuno notare che:
•
Nello schema di annotazioni Janus non sono disponibili informazioni riguardanti gli atti
linguistici che è possibile annotare
•
Per SLSA non sono menzionati atti linguistici specifici
•
Lo schema di annotazione Natakani et al. è stato sviluppato esclusivamente per l’annotazione
del discorso; non vengono perciò specificati gli atti linguistici
•
Tutti gli altri schemi (ad es. COCONUT, Condon and Cech e C-STAR) non compaiono nelle
tabelle precedenti perché sono stati progettati per task diversi (rispettivamente risoluzione di
problemi, presa di decisioni, organizzazione di viaggi).
5.2
Confronto delle etichette previste negli schemi analizzati ed evidenziazione
delle comunalità
Nella tabella che riporteremo qui di seguito sono state raccolte tutte le etichette impiegate dai
vari schemi di annotazione finora presentati. Ad ogni singola etichetta sono state affiancate le
etichette impiegate dagli altri schemi per fare riferimento allo stesso fenomeno. In questo modo è
stato possibile evidenziare le comunanze esistenti tra i vari schemi di annotazione ed avere un
quadro dei fenomeni “centrali” per il livello pragmatico, in quanto presi in considerazione dalla
maggioranza degli schemi analizzati. Dove disponibili sono inoltre stati riportati esempi tratti dai
corpora di dialoghi etichettati.
E-225
5.2.1 Tavole di evidenziazione delle comunanze tra gli schemi di annotazione esaminati
ETICHETTA
SCHEMI
VARIAZIONI
ESEMPI
Abuse
GDA
??
Accept
Coconut
- All right
Chat
Give in, accept
other’s insistence
or refusal (GI)
- Okay
- Yes, I think that
will be fine
C-STAR
DAMSL
GDA
Acc
Switchboard
SWBD-DAMSL
Agree/Accept (aa)
Traum
Verbmobil
Accept-Part
Coconut
- Something like
that
DAMSL
Switchboard
SWBD-DAMSL
Maybe/Accept-part
(aap/am)
Acknowledgement Alparon
- Oh, okay
Coconut
Acknowledge
- Uh-huh
Condon and Cech
Acknowledges
Only (AO)
- I know
C-STAR
Acknowledge
DAMSL
Acknowledge
Maptask
Acknowledge
Switchboard
SWBD-DAMSL
Response
Acknowledgement
(bk)
Acknowledge (b)
Traum
Action-Direction
Acknowledge
Coconut
DAMSL
- Why don’t you go
first?
Action directive
E-226
- Let’s buy the
living room
furniture first
Switchboard
SWBD-DAMSL
Action-directive
(ad)
Affirm
C-STAR
??
Agreement
Coconut
- That’s exactly it
Condon and Cech
Agrees with
Suggestion (AS)
Chat
Agree to carry out
act requested or
proposed by other
(AD)
- Ok, good idea
Agree to do for the
last time (AL)
Agree to a
declaration (YD)
Agree with a
preposition or
proposal expressed
by previous
speaker (AP)
DAMSL
Switchboard
SWBD-DAMSL
Alignment
Alparon
Maptask
Answer
Agree/accept (aa)
This is the lefthand edge of the
page, yeah?
Align
Chiba
Chat
- Yes
Answer calls (AC) - No
Answer in the
affirmative to
yes/no question
(AA)
Answer a question
with a wh-question
(QA)
Answer a whquestion by a
statement (SA)
Answer a limitedalternative question
(TA)
E-227
- It is
- I don’t know
Intentionally non
satisfying answer
(NA)
Coconut
DAMSL
LinLin
Switchboard
SWBD-DAMSL
Yes answer (ny)
No answer (nn)
Affirmative nonyes answer
(na.nyê)
Negative non-no
answer (ng.nnê)
Other answer (no)
Dispreferred
answer (arp, nd)
Apologize
C-STAR
Switchboard
SWBD-DAMSL
- I’m sorry
Apology (fa)
Traum
Appreciation
Switchboard
SWBD-DAMSL
- I can imagine
Approve of
appropriate
behaviour (AB)
Chat
- Good, well done!
Ask for permission Chat
Assert
Coconut
Chiba
- I need to get
cargo there
Other assertion
DAMSL
Backchannel
DAMSL
Switchboard
SWBD-DAMSL
Is that right?
Backchannel in
question form (bh)
Blame
GDA
??
Call attention to
hearer (CL)
Chat
- Peter!
Check
Alparon
- To my right?
DAMSL
- As I look at it?
Maptask
E-228
Traum
Clarification
Alparon
- At the opposite
side
Coconut
ClarificationReque - I mean Thursday
st
the twenty-third
Maptask
Clarify
Verbmobil
Clarify
Clarify_Answer
Comforting (CMO) Chat
??
Commiserate (CM) Chat
- Oh, poor boy!
Commit
Coconut
- Great, I’ll see you
there
DAMSL
- I’ll come to your
party
Coconut
- Let me see
DAMSL
- Can you hear me
Communication
Management
- Wait a minute
Completion
Coconut
Chat
Who aren’t
contributing?
Complete text
(CX)
Complete
statement (SC)
DAMSL
Switchboard
SWBD-DAMSL
Collaborative
Completion (^2)
Complies with
Request (CR)
Condon and Cech
- Ok, it takes about
an hour to drive to
Baton Rouge
Confirm
Chiba
- Si
Dialogos
Conferma
Conf-Si
- Ok, that would be
wonderful
Conf_no
Verbmobil
Continuation
LinLin
Discourse
continuation
Traum
Continue
E-229
??
Conventional
Alparon
Chiba
Greeting
- Hello
Bye
- How are you?!
Opening
- Well, it’s been
nice talking to you
Closing
C-STAR
Closing
Greeting
Coconut
ConventionalOpening
ConventionalClosing
DAMSL
Opening
Closing
GDA
Cnv
LinLin
Opening (DO)
Ending (DE)
Switchboard
SWBD-DAMSL
Conventionalopening (fp)
Conventionalclosing (fc)
Traum
Verbmobil
Convention
Greeting
Greeting_Begin
Greeting_End
CorrectAssumption Coconut
??
CorrectMisspeaking
S1: We should
move to the engine
at Avon engine E to
Coconut
Chat
Correct, provide
S2: engine E one
correct verbal form
(CT)
DAMSL
Count (CN)
Chat
??
Criticize or point
out error in nonverbal act (CR)
Chat
- Don’t pull it!
Dare
Chat
Dare hearer to
perform action
E-230
??
(DR)
Declare
Chat
Create a new state
of affairs by
declaration (DC)
??
Declare a makebelieve reality (DP)
Deliberate
Verbmobil
- Let me check my
calendar here
Demand
Chiba
??
Deviate_scenario
Verbmobil
S1:We could meet
for lunch
S2: And eat lots of
ice cream and gain
weight
Dial_wait
Dialogos
C-STAR
Digress
Verbmobil
Directing
Chat
- Attenda
Please wait
??
Directing hearer’s
attention (DHA)
??
Directing hearer’s
sentiments (DHS)
Disagree
Chat
Disagree with a
declaration (ND)
Disagree with
proposition
expressed by
previous speaker
(DW)
- I don’t think that
would be a good
idea
Condon and Cech
Disagrees with
suggestion, refuses
to comply with
request (DS)
Disapprove
Chat
Disapprove
disruptive
behaviour (DS)
??
Discuss
Chat
Discussing
clarification of
action (DCA)
??
Discussing
clarification of
communication
(DCC)
E-231
Discussing the
fantasy world
(DFW)
Discussing a joint
focus of attention
(DJF)
Discussing the non
present (DNP)
Discussing a recent
event (DRE)
Discussing the
related-to-present
(DRP)
Discussing
speaker’s
sentiments (DSS)
Downplayer
Switchboard
SWBD-DAMSL
Elaborate
Condon and Cech
Elaborates,
explains, supports,
repeats previous
utterance (ER)
- This is fun, I love
New Orleans
Elicit
Chat
Elicit
onomatopoeic or
animal sounds
(EA)
- Il cane fa “bau”,
il gatto fa…
- That’s all right
Elicit imitation of
word or sentence
(EI)
Elicit completion
of rote learned text
(EX)
Eliciting question
(EQ)
Eval
Coconut
Eval
??
EvaluatePlan
Traum
Exclamation
Coconut
Chat
- Oh, my God!
Exclaim in
disapproval (ED)
Exclaim in surprise
and enthusiasm
(ET)
E-232
- That’s really
great!
Exclaim in distress
(EM)
DAMSL
GDA
Explain
Exc
Maptask
- Where the dead
tree is on the other
side of the stream
there’s farmed land
- I’m in between
the remote village
and the pyramid
Explicit
Performative
Coconut
- Ti prometto di
arrivare per le 10
DAMSL
Express
Chat
Express positive
emotion (EN)
- What a nice
surprise!
Express surprise
(ES)
Feedback
Verbmobil
Feedback
- Well, boy
Feedback_backcha - Oh ja, stimmt
nneling
Feedback_negative
Feedback_positive
Give reason
Chat
Because I have
meetings all
afternoon
Verbmobil
Hedge
Switchboard
SWBD-DAMSL
- I don’t know if
I’m making any
sense or not
Hold
Chiba
- I’m drawing a
blank
Coconut
- You want to go
from Avon to
Dansville
DAMSL
GDA
Hld
Switchboard
SWBD-DAMSL
Hold before
answer/agreement
(^h)
E-233
Information
Alparon
- When does the
next flight to Paris
leave?
Chiba
Inform
Coconut
Information
Relations
C-STAR
Give-information
Dialogos
Info
Traum
Inform
- Is there an engine
at Bath?
Supp-Inf
Introduce
Verbmobil
Inform
C-STAR
Introduce-self
- It’s me again
Introduce-topic
Verbmobil
Instruct
Maptask
Mark
Chat
- And go up to
about the middle of
the map
Mark occurrence of ??
event (MK)
Mark transfer of
object to hearer
(TO)
Maybe
Coconut
??
DAMSL
Negate
C-STAR
Negotiate
Chat
??
Negotiate
copresence and
separation (NCS)
Negotiating an
activity in the
future (NFA)
Negotiating the
immediate activity
(NIA)
Negotiate mutual
attention (NMA)
Negotiating
possession of
objects (PSS)
E-234
??
Offer
Coconut
- I’ll have to check
that out
C-STAR
DAMSL
Open-Option
GDA
Ofr
Switchboard
SWBD-DAMSL
Offers,options,com
mits (oo,cc,co)
Coconut
- How about the
one at Cornig
DAMSL
Or-Clause
Switchboard
SWBD-DAMSL
Order
GDA
Perform a verbal
move
Chat
??
Persuasion
Chiba
??
- Or is it more of a
company?
Ord
- Give me that book
Politeness_formula Verbmobil
??
Praise
Chat
Praise for motor
acts (PM)
- That was a great
jump!
Prohibit
Chat
Prohibit
performance of an
act (PF)
- Don’t climb up
the ladder!
Promise
Chat
I promise that I
will come
Chiba
GDA
Commitment or
promise cmt
Propose
Chiba
??
Question
Alparon
- Do you have to
have any special
training?
Chat
Yes/no question
about hearer’s
wishes and
intentions (RQ)
Wh-question (QN)
Limited alternative
yes/no question
(TQ)
Yes/no question
E-235
- Well, how old are
you?
- How about you?
(YQ)
Aggravated
question (AQ)
Chiba
Yes-no question
Wh-question
GDA
Yes/No Query qyn
Wh Query qw
LinLin
Maptask
Query-YN
Query-W
Switchboard
SWBD-DAMSL
Yes-No-Question
(qy)
Wh-Question (qw)
Open-Question
(qo)
Tag-Question (^q)
RethoricalQuestion (qh)
Declarative YesNo-Question
(qy^d)
Declarative WhQuestion (qw^d)
Traum
YNQ
WHQ
Quotation
Switchboard
SWBD-DAMSL
- You can’t be
pregnant and have
cats
Reassert
Coconut
??
DAMSL
Reconfirmation
Alparon
Read
Chat
Refer_to_setting
Verbmobil
??
Reject
Coconut
- Well, no
Chat
??
Read written text
(TXT)
??
Refuse to carry out - I can’t, my arm is
act requested or
broken
proposed by other
- Actually this week
(RD)
E-236
Refuse to answer
(RA)
is really bad for me
C-STAR
DAMSL
GDA
Rej
Switchboard
SWBD-DAMSL
Traum
Verbmobil
Reject\
Explained_reject
Reject-Part
Coconut
- Monday is Ok,
but I can’t at 7
DAMSL
Repair
Traum
- Is that what you
are saying?
RepeatRephrase
Coconut
- Te lo dico con
altre parole
Chat
Request to repeat
utterance (RR)
Repeat or imitate
other’s utterance
(RT)
DAMSL
Reply
Switchboard
SWBD-DAMSL
Repeat-phrase
(b^m)
Chiba
Positive
- Yes
Negative
- No
Response with
initiation
- No, not at the
moment
GDA
Reply rlp
Reply wh- rpw
Reply yes rpy
Reply no rpn
LinLin
Response
Maptask
Reply-Y
Reply-N
Reply-W
Request
Chiba
- Where do you
E-237
want go go?
Chat
Request, propose
or suggest an
action (RP)
Coconut
Info-Request
Condon and Cech
Request Action RA
- Would that be ok?
- Do you mean
Thursday the
twenty-third?
Request
Validatio/Verificati
on/Acknowledgem
ent RV
Request
Information RI
C-STAR
Request-action
Requestaffirmation
Requestinformation
Request-suggestion
Requestverification
DAMSL
Info-Request
Dialogos
New-req
Req
Req#Ver
GDA
Req
Traum
Request
Request Repair
Request Ack
Verbmobil
Request
Request_Clarify
Request_Comment
Request_Suggest
Select
Dialogos
??
Self-talk
DAMSL
- What’s the word
I’m looking for
Switchboard
E-238
SWBD-DAMSL
Show attentiveness Chat
??
Statement
- Me, I’m in the
legal department
Alparon
Chat
State intent to carry - I think it’s great
out act (SI)
State or make a
declarative
statement (ST)
Express a wish
(WS)
Coconut
Other Statement
DAMSL
GDA
Stt
Switchboard
SWBD-DAMSL
Statement-nonopinion (sd)
Statement-opinion
(sv)
Suggest
Chiba
- Let’s go to New
Orleans
Condon and Cech
Suggest Action SA - How about
Monday at 3?
Chat
Counter suggestion
(CS)
C-STAR
Suggest
Suggest-action
DAMSL
Suggestion
Weak Suggest or
Negative Suggest
Traum
Suggest
Supp-sug
Verbmobil
Summarize/reform Switchboard
ulate
SWBD-DAMSL
Summon
GDA
Task management
Coconut
- Oh, you mean you
switched schools
for the kids
Smn
??
- Let’s work on
getting the train to
Avon first
E-239
Thank
DAMSL
- Do I need to state
the problem?
C-STAR
- Hey thanks a lot
Switchboard
SWBD-DAMSL
Thanking ft
Verbmobil
Third party talk
Switchboard
SWBD-DAMSL
- My goodness,
Diane, get down
from there
Threaten to do
Chat
??
Understanding
Chiba
- Excuse me?
Coconut
Understanding
-What did you say?
Signal-nonunderstanding
- Uh-huh
Signalunderstanding
DAMSL
Understanding
Signal-nonunderstanding
Signalunderstanding
Dialogos
Not-und
GDA
Und
Not understand nun
Switchboard
SWBD-DAMSL
Understanding
Signal-nonunderstanding (br)
Update
LinLin
??
Verify
C-STAR
- Parte intorno
alle5?
Dialogos
Warn
5.3
Chat
Warn of danger
- Watch out!
Indicazioni di best-practice
Analizzando la tabella riportata qui sopra è stato possibile identificare un certo numero di
fenomeni che sono presi in considerazione dalla maggior parte degli schemi di annotazione e vanno
dunque a costituire il nucleo centrale del livello di annotazione pragmatico. A nostro avviso tale
gruppo rappresenta l’insieme dei fenomeni che uno schema di annotazione deve assolutamente
E-240
etichettare per essere considerato sufficientemente completo. Poichè il nostro obiettivo è
identificare uno schema generale che possa essere applicato a dialoghi di domini diversi, abbiamo
escluso le etichette che venivano impiegate da un solo schema di annotazione, poichè si trattava
prevalentemente di etichette eccessivamente specifiche e legate al task e al dominio per il quale
erano state pensate, e perciò difficilmente estendibili all’analisi di corpora diversi.
Abbiamo scelto di mantenere le etichette in inglese, in modo da facilitare il confronto con gli
schemi di annotazione che impiegano etichette simili.
Laddove necessario e possibile, le etichette impiegate da schemi diversi sono state uniformate:
nel caso, ad esempio, delle etichette Statement, Afferm e Assert, che a nostro avviso rappresentano
modi diversi di etichettare lo stesso fenomeno, si è optato per la scelta di una sola etichetta.
Qui di seguito riportiamo la lista delle etichette:
•
Accept
•
Accept-part
•
Action-directive
•
Answer
•
Assert
•
Check
•
Clarification
•
Commit
•
Communication Management
•
Completion
•
Confirm
•
Conventional
•
Correct Misspeaking
•
Disagree
•
Exclamation
•
Explicit Performative
•
Hold
•
Information
•
Offer
•
Promise
•
Question
•
Reassert
•
Reject
•
Reject-part
•
RepeatRephrase
E-241
•
Request
•
Suggestion
•
Task Management
•
Understanding
Uno degli obiettivi della seconda linea del progetto SI-TAL per il livello pragmatico è ottenere
un manuale da affiancare allo schema di annotazione raccomandato nella corrente fase del progetto.
In tale manuale verrà ampliamente spiegato a quale tipo di fenomeno siano abbinate le singole
etichette; ad ogni etichetta verrà inoltre affiancato un albero di decisione, che faciliterà gli
annotatori nella scelta delle etichette da impiegare in fase di applicazione pratica dello schema per
l’annotazione di corpora di dialoghi. Gli alberi di decisione saranno conformi al seguente modello
(suggerito da Morena Danieli e Barbara Di Eugenio in Core et al. 1999, p. 23):
Is S’s utterance presenting potential actions of H?
Y
N
Is S in a position to create an obligation for H?
Y
N
Tag as Open-Option
Does S and H share enough information
that S can expect H to be able to execute
the presented action?
Y
N
Tag as Open-Option
Does S endorse the option
presented to H?
Y
Tag as “none”
N
Tag as Action-Directive
Tag as Open-Option
Figura 5.1: Albero di decisione per le etichette Open-Option e Action-Directive
Il pre-requisito per la stesura definitiva del manuale è comunque stato l’identificazione del
set di etichette che andrà a costituire il corpo centrale dello schema di annotazione da noi
consigliato per il livello pragmatico.
Le etichette sono state scelte in seguito al confronto tra i vari schemi di annotazione presentati
nella prima sezione del presente rapporto. È stata data maggiore rilevanza all’impianto adottato da:
E-242
a) gli schemi documentati (che prevedono cioè un manuale di spiegazione delle etichette e di guida
all’annotazione);
b) gli schemi già utilizzati in progetti di ricerca;
c) gli schemi già valutati o che è possibile valutare calcolare l’indice di accordo tra annotatori k,
che permette di avere un dato oggettivo dell’affidabilità dello schema.
5.3.1 Descrizione delle etichette consigliate
Qui di seguito verrà fornita una breve presentazione dei fenomeni che saranno presi in
considerazione dallo schema di annotazione per il livello pragmatico e una descrizione delle
etichette corrispondenti.
Negli esempi che forniremo verranno impiegati i seguenti simboli:
• per i dialoghi uomo-uomo:
P = parlante (il primo dei due partecipanti all’interazione)
A = ascoltatore (il secondo partecipante all’interazione)
• Per i dialoghi uomo-macchina:
S = sistema
U = utente
Accept: questa tag viene impiegata per etichettare l’accettazione da parte del parlante di una
proposta o di un’offerta effettuata dall’altro partecipante al dialogo, o per segnalare l’accordo con
l’opinione espressa dall’altro partner conversazionale.
Esempio:
P: Potremmo spostare questi documenti nella cartella che ho appena creato.
A: Va bene. Accept
Accept-part: questa tag viene impiegata per etichettare la parziale accettazione di un’offerta o
una proposta o la parziale condivizione dell’opinione espressa dall’altro partner del dialogo.
Esempio:
P: Vuoi del tè e dei biscotti?
A: Solo il tè, grazie Accept-part
Action-directive: questa tag viene impiegata per etichettare un enunciato che obbliga il
ricevente
a) ad eseguire una determinata azione;
E-243
b) a comunicare un rifiuto esplicito o l’impossibilità di svolgere l’azione richiesta.
Esempio:
P: Compra il giornale prima di venire a casa. Action-directive
A: D’accordo.
Answer: questa tag viene impiegata per etichettare la risposta ad una domanda precedentemente
effettuata dall’altro partecipante al dialogo.
Esempio:
P: Qual è il treno più veloce che posso prendere adesso per Milano?
A: Prenda l’Eurostar delle 11 e 10. Answer
Assert: la funzione di questa tag è etichettare quegli enunciati per mezzo dei quali il parlante
esprime una constatazione a proposito del mondo in generale o a proposito di qualcosa/qualcuno
che è parte del dominio del discorso. In particolare, con questa etichetta vengono annotati quegli
enunciati il cui obiettivo è cambiare le credenze/l’opinione dell’ascoltatore.
Esempio:
P: Ho bisogno di spazio e allora comprimo questi vecchi documenti. Assert
Check: con questa etichetta vengono annotati quegli enunciati per mezzo dei quali il parlante
cerca di accertarsi di aver correttamente inteso quello che l’interlocutore gli ha comunicato, ad
esempio ripetendo quanto precedentemente pronunciato da quest’ultimo ed esortandolo a
confermare ciò che ha recepito e di cui non è sicuro.
Esempio:
P: Per arrivare al municipio deve svoltare a destra e poi a sinistra.
A: A destra e poi a sinistra, giusto? Check
Clarification: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante
chiarisce o precisa quanto ha già affermato in precedenza, o come reazione ad un “check”, o per
risolvere casi di ambiguità.
Esempio:
P: Non sapevo che la sorella di Giorgio abitasse a Trieste.
A: Ma io mi riferivo a Maria, non a Laura. Clarification
Commit: questa etichetta viene impiegata per annotare quegli enunciati per mezzo dei quali il
parlante si impegna a compiere una qualche azione futura. In particolare, la tag “commit” si
differenzia dalla tag “promise” (con la quale ha molti punti in comune) per il fatto che l’impegno
del parlante non è condizionato in alcun modo dall’atteggiamento o dall’accordo dell’ascoltatore.
E-244
Esempio:
P: Verrò alla festa. Commit
Communication Management: con questa etichetta vengono annotati quegli enunciati la cui
funzione è gestire il processo di comunicazione, mantenendo il contatto e assicurando la
comprensione tra i parlanti. A questa tag può essere associata la sottocategorizzazione Hold, che
viene impiegata per annotare quegli enunciati la cui funzione è tenere aperto il canale di
comunicazione e mantenere il turno, ad esempio mentre il parlante sta svolgendo un’altra azione.
Esempio:
P: Mi sente? È ancora in linea? Communication Management
S: Parte intorno alle undici?
U: Si.
S: Attenda. Attenda in linea! Hold
Completion: questa tag viene impiegata per etichettare quegli enunciati per mezzo dei quali il
parlante completa un enunciato già iniziato dal suo interlcutore ma non ancora portato a termine.
Esempio:
P: due più due fa…
A: quattro Completion
Confirm: questa tag viene impiegata per etichettare gli enunciati che contengono una conferma
del parlante a proposito di quanto egli stesso ha già affermato in precedenza. A questa etichetta
possono essere associate le sottocategorizzazioni Confirm-yes e Confirm-no.
Esempio:
S: vuole andare da Roma a Milano il sette dicembre partendo alle otto del mattino?
U: si Confirm-yes
con questa etichetta vengono annotati quegli enunciati con cui,
Conventional:
convenzionalmente, si apre o si chiude un dialogo, si ringrazia, si porgono delle scuse. A questa tag
possono essere associate le sottocategorizzazioni Conventional-opening, Conventional-closing,
Conventional-thank e Conventional-apologize.
Esempi:
S: Il Servizio è automatico e fornisce gli orari dei treni che collegano le principali città
italiane ed alcune città europee. Risponda alle domande del sistema, dopo il segnale
acustico. Ora, mi dica da dove parte e dove vuole andare. Conventional-opening
S: Arrivederci e buon viaggio. Conventional-closing
S: Grazie per aver scelto Alitalia. Conventional-thank
P: Mi scusi, non ho sentito. Conventional-apologize
E-245
Correct Misspeaking: con questa tag vengono annotati quegli enunciati per mezzo dei quali un
parlante segnala che, secondo lui, il suo interlocutore non detto quello che veramente intendeva
dire.
Esempio:
P: Devi aprire il file della presentazione “Mil2” e selezionare
A: “Mil2.new” Correct Misspeaking
P: “Mil2.new” e selezionare il comando “print”
Disagree: con questa tag vengono etichettati gli enunciati che segnalano il disaccordo del
parlante nei confronti di quanto affermato dal suo interlocutore.
Esempio:
P: Continuiamo domani.
A: Non credo sia una buona idea. Disagree
Exclamation: con questa etichetta vengono annotate le esclamazioni.
Esempio:
P: Splendido! Exclamation
Explicit Performative: con questa etichetta vengono annotati quegli enunciato per mezzo dei
quali il parlante compie un’azione.
Esempio:
P: Dichiaro la seduta aperta. Explicit Performative
Information: con questa etichetta vengono annotati quegli enunciati tramite i quali il parlante
fornisce al suo interlocutore un’informazione che non impegna il parlante ne’ crea un obbligo per
l’ascoltatore.
Esempio:
P: A che ora parte il primo volo per Parigi?
A: Alle otto. Information
Offer: questa etichetta viene impiegata per annotare quegli enunciati per mezzo dei quali il
parlante indica la sua disponibilità a compiere una determinata azione se il suo interlocutore è
d’accordo. Il fatto che l’impegno da parte del parlante sia condizionato dalla volontà
dell’interlocutore è l’elemento che differenzia l’etichetta Offer dall’etichetta Commit.
Esempio:
P: Potrei venire a trovarti stasera. Offer
E-246
Promise: con questa etichetta vengono annotati quegli enunciati nei quali il parlante si impegna
formalmente a compiere una determiata azione. Questa tag può anche essere considerata una
sottocategorizzazione dell’etichetta Explicit Performative.
Esempio:
P: Prometto che arriverò in tempo. Promise
Question: con questa tag vengono etichettate le domande. A questa etichetta possono essere
associate le sottocategorizzazioni Yes-No-Question e Open-Question.
Esempi:
P: È arrivata posta per me? Yes-No-Question
P: A che ora vuole partire?
Open-Question
Reassert: la funzione di questa tag è etichettare quegli enunciati per mezzo dei quali il parlante
ribadisce una constatazione già espressa in precedenza a proposito del mondo in generale o a
proposito di qualcosa/qualcuno che è parte del dominio del discorso.
Esempio:
P: Vorrei partire alle dieci con un treno rapido.
A: Cerco un treno che parta alle dieci.
P: Un treno rapido. Reassert
Reject: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante rifiuta
una proposta o un’offerta del suo interlocutore o risponde negativamente ad una sua richiesta.
Esempio:
P: Ci incontriamo domani?
A: Veramente per me questa settimana non va bene Reject
Reject-part: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante
rifiuta parzialmente una proposta o un’offerta del suo interlocutore o risponde negativamente a
parte di una sua richiesta.
Esempio:
P: Perchè non ci incontriamo lunedì alle 19?
A: Lunedì va bene, ma alle 19 non posso. Reject-part
RepeatRephrase: questa etichetta viene impiegata per
E-247
a) ripetere quello che è appena stato detto per segnalare che il parlante ha capito quello che il suo
interlocutore ha detto;
b) ripetere con altre parole un enunciato che non è stato compreso.
Esempi:
P: Vorrei gli orari da Roma a Milano
A: Da Roma a Milano. A che ora? RepeatRephrase
P: cosa intendi?
A: te lo dico con altre parole RepeatRephrase
Request: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante pone
una domanda al suo interlocutore con l’intento di ottenere qualcosa (un oggetto, lo svolgimento di
una determinata azione).
Esempio:
P: Puoi aprire la finestra, per favore? Request
Suggestion: con questa etichetta vengono annotati gli enunciati che suggeriscono un’azione
senza obbligare in nessun modo il ricevente.
Esempio:
P: Cosa ne pensi di continuare il lavoro domani mattina? Suggestion
Task management: questa tag viene impiegata per etichettare gli enunciati che trattano
esplicitamente del raggiungimento del task e dei problemi ad esso connessi.
Esempio:
P: Per prima cosa cerchiamo di capire come funziona Task management
Understanding: con questa etichetta vengono annotati gli enunciati che hanno la funzione di
assicurare la comprensione tra i parlanti man mano che il dialogo procede. A questa etichetta
vengono associate le sottoclassificazioni Signal-non-understanding (che segnala un problema
nella comprensione dell’antecedente) e Signal-understanding (che segnala esplicitamente che
l’enunciato precedente è stato correttamente compreso)
Esempi:
P: Telefona al dr. Rossi
A: Al dr. Rossi dell’ufficio acquisti?/A chi? Signal-non-understanding
P: Telefona al dr. Rossi
A: Uh-huh Signal-understanding
E-248
5.3.2 Valutazione dello schema di annotazione consigliato
Sarà possibile valutare l’affidabilità dello schema di annotazione da noi consigliato e
l’accordo tra annotatori applicando la formula per il calcolo dell’indice k (cfr. Krippendorf 1980,
Carletta 1997, Walker et al. 1997).
Si noti che lo schema consente di introdurre ulteriori sottoclassificazioni per ciascuna
etichetta qualora un’applicazione specifica dovesse richiedere un livello di granularità più fine.
Si deve infine considerare che le etichette, elencate in ordine alfabetico nel paragrafo
precedente, non sono tutte mutualmente esclusive. Il loro insieme tende infatti a cogliere diverse
dimensioni dell’atto linguistico che, per esempio in DAMSL, contribuiscono a descrivere diverse
funzioni discorsive. Infatti, in un dialogo ciascun turno è collegato ai turni precedenti e può
rappresentare l’intenzione del parlante di influire sui turni successivi (propri e dell’interlocutore). In
DAMSL queste due funzioni sono chiamate rispettivamente “Forward-Communicative-Function” e
“Backward-Communicative-Function”.
In DAMSL le etichette sono infatti raggruppate in tre classi di ordine superiore. La prima
classe, che comprende le etichette Task, Task-Management e Communication-Management, è
denominata Info-level, ed analizza l’enunciato in questione dal punto di vista informativo. La
seconda classe prende invece il nome di Forward-Communicative-Function e comprende etichette
tipo Action-directive, Commit, Explicit Performative ecc., che rappresentano la volontà del parlante
di influire sui turni successivi. La terza classe è chiamata Backward-Communicative-Function ed
analizza gli enunciati dal punto di vista del loro legame con i turni precedenti. Essa include dunque
etichette come Accept, Signal-Understanding, Signal-non-understanding, Answer ecc.
Per chiarire questi concetti, riportiamo due esempi di enunciati annotati secondo le
indicazioni di DAMSL.
(1) S: Sistema automatico sperimentale di informazioni sugli orari dei voli.
Mi dica da quale città parte e in quale città vuole arrivare.
U: Devo andare da Torino a Parigi con un volo Alitalia.
Secondo lo schema di DAMSL, l’annotazione della frase qui riportata in corsivo prenderà in
considerazione i seguenti fenomeni e livelli:
•
Info-level: Task – in questo modo si analizza il livello informativo dell’enunciato in questione.
Nel caso specifico, l’utente sta cercando di portare a termine il task che si è prefissato.
•
Forward-Communicative-Function: Assert, Commit – in questo livello viene analizzato il
modo in cui il parlante cerca di influire sui turni successivi. Nell’enunciato in questione, l’utente
fa un’affermazione e prende contemporaneamente un impegno.
•
Backward-Communicative-Function: Answer – si passa ora a prendere in considerazione qual
è il legame tra l’enunciato in analisi ed i turni precedenti. Nel nostro caso, la frase pronunciata
dall’utente è una risposta alla domanda precedentemente posta dal sistema.
E-249
(2) U: Parto da Parigi e vado a Barcellona.
S: Vuole ritornare a Barcellona?
U: Si.
Secondo le indicazione di DAMSL, l’enunciato in corsivo dell’esempio (2) verrà annotato come
segue:
•
Info-level: Communication-Management – dal punto di vista informativo, la funzione
dell’enunciato in questione è assicurare la comprensione tra i partecipanti al dialogo.
•
Forward-Communicative-Function: Reassert, Commit – con questa frase, l’utente ribadisce
quanto ha già affermato in precedenza ed allo stesso tempo prende un impegno (influenza
quindi la prosecuzione del dialogo).
•
Backward-Communicative-Function: Accept, SU-Ackowledge, Answer – nell’enunciato in
analisi l’utente risponde alla domanda posta dal sistema nel turno precedente, accettando così
quanto gli è stato proposto, e contemporaneamente conferma i dati acquisiti dal sistema,
segnalando la corretta comprensione degli enunciati precedenti. Questo livello prende quindi in
esame i rapporti che intercorrono tra l’enunciato in esame ed i turni precedenti
E-250
PARTE III - SPECIFICHE RELATIVE AL SOFTWARE PER
L’ANNOTAZIONE
E-251
1 Stato dell’arte degli strumenti software
E-252
1.1
Introduzione
Lo scopo di questa rassegna consiste nell’acquisire informazione sugli strumenti software
attualmente disponibili di ausilio all’annotazione di corpora di dialoghi e di supporto all’estrazione
e alla visualizzazione annotata a livelli diversi. La rassegna servirà ad ottenere una panoramica delle
funzionalità e caratteristiche possedute dai diversi strumenti software per valutare:
•
le funzionalità che, in base all’esperienza d’uso di altri strumenti, devono essere
necessariamente implementate da uno strumento software che soddisfi i requisiti funzionali
imposti dal tema “Dialoghi Annotati” in SI-TAL;
•
l’eventuale esistenza di strumenti software che per le loro caratteristiche si prestino ad essere
acquisiti in SI-TAL, e gli eventuali adattamenti necessari.
1.2
Criteri utilizzati per il confronto degli strumenti software
La rassegna dei vari strumenti software verrà effettuata sulla base di alcune dimensioni
descrittive che nel loro insieme hanno lo scopo di valutare le funzionalità degli strumenti software e
la loro rispondenza alle esigenze poste dal tema Dialoghi Annotati. In particolare, dunque, verranno
valutate le funzionalità messe a disposizione dai diversi strumenti, con speciale riferimento alle
funzionalità per l’annotazione dei dati dialogici su più livelli di analisi linguistica. Altri criteri che
verranno tenuti in considerazione riguardano caratteristiche di usabilità dello strumento,
caratteristiche di adattabilità ed estendibilità, ed il grado in cui i principali formati standard di
markup testuale attualmente in uso sono supportati.
Per lo più, la valutazione dei diversi strumenti software avviene sulla base della documentazione
disponibile e dell’esperienza degli autori. I parametri considerati sono dunque i seguenti:
Funzionalità disponibili:
•
funzionalità per la trascrizione: se e come il software possiede delle funzionalità per la
trascrizione in formato testuale di dati vocali.
•
funzionalità per l’annotazione: se e come il software permette l’annotazione dei dati linguistici e
a quali livelli; se è consentita l’annotazione a livelli multipli; la velocità, l’efficienza e
l’affidabilità del processo; caratteristiche di facilità d’uso per l’utente e intuitività
dell’interfaccia. Eventualmente, se è disponibile l’automatizzazione del processo di
annotazione.
•
funzionalità per la visualizzazione e la ricerca: intuitività della visualizzazione del corpus
annotato; possibilità di accedere al corpus annotato per condurre analisi statistiche, ricerche
complesse ed estrazione dell’informazione.
•
funzionalità di import/export: possibilità di importare/esportare dati per e da il formato di
annotazione in modo efficiente, facile ed economico; importazione di dati e di corpora già
codificati in formati diversi.
La descrizione di questi aspetti generali, insieme all’indicazioni di caratteristiche software e di
piattaforma, insieme contribuiscono a classificare i vari strumenti lungo i criteri seguenti:
E-253
•
usabilità: la facilità d’uso complessiva del software, nei termini sia di intuitività dell’interfacciautente, di disponibilità della documentazione, magari in linea, che di aspetti commerciali (quali
licenze, possibilità di sviluppo ecc.) e di portabilità su più tipi di piattaforme.
•
adattabilità e possibilità di personalizzazione delle risorse, in termini di estendibilità degli
strumenti mediante aggiunta di funzionalità e/o moduli ulteriori; verrà inoltre valutato se lo
strumento possiede degli schemi di annotazione pre-caricati, e se offre la possibilità di importare
schemi di annotazione diversi da quelli originari.
•
grado di supporto relativamente a standard esistenti (SGML, XML, …)
1.3
Indice degli strumenti esaminati
1) Alembic
2) AnnoTag
3) CLAN
4) DAT
5) DiET
6) EMU
7) Entropic Signal Processing System (Esps/xwaves+)
8) Fringe
9) MATE
10) Nb
11) Tatoe
12) Transcriber
E-254
1.3.1 ALEMBIC (MITRE CORPORATION)
1.3.1.1 Introduzione
Alembic è un sistema integrato che serve allo scopo di creare un ambiente di ingegneria del
linguaggio nmaturale per lo sviluppo di corpora annotati. Per promuovere questo procresso, il
software incorpora una serie di strumenti per l’analisi di un corpus, insieme al sistema Alembic per
consentire l’acquisizione automatica di euristiche di annotazione specifiche del dominio. Alembic
ha come scopo quello di ridurre notevolmente l’ammontare di lavoro necessario alla costruzione di
corpora di training, e si propone di raggiungerlo in due modi:
•
rendendo estremamente semplice l’annotazione di dati testuali mediante insiemi di etichette
interamente customizzabili. Tra i vari metodi usati per velocizzare il processo di annotazione
vi è l’applicazione di euristiche di apprendimento automatico per il bootstrapping del
processo di annotazione umano.
•
fornendo degli strumenti di valutazione per analizzare i dati annotati, sia allo scopo di
valutare la performance dell’estrazione di informazione automatica, sia per misurare il grado
di accordo fra annotatori per un corpus o un compito particolari.
1.3.1.2 Caratteristiche tecniche
Alembic è disponibile nelle versioni per Unix (versione 2-12) e per windows 95/NT (versione
beta 2-14). E’ distribuito gratuitamente.
1.3.1.3 Funzionalità
•
Funzionalità per la trascrizione: assenti
•
Funzionalità per l’annotazione: lo strumento di annotazione si basa su SGML. Oltre ai consueti
modi di annotazione testuale, il software permette vari tipi di annotazione specializzata, incluse
l’annotazione di co-referenza, vari tipi di puntatori inter-etichetta definiti dall’utente, e un
template generale per l’annotazione (alias relazioni, frames, o eventi). Il sistema di NLP multilingue di Alembic fornisce accesso a taggers per un’ampia gamma di livelli di estrazione, e
alcune applicazioni sono state costruite per alcune lingue. Il software ha un sofisticato
componente di visualizzazione.
Vi sono etichette definite ai livelli seguenti:
– coreferenza
– atti del discorso
– morfosintassi
Etichette e insiemi di etichette aggiuntivi possono essere definiti dall’utente.
E-255
Sono disponibili delle modalità di annotazione automatica: query-mode, auto mode e autoconfirm mode, usate per ripetere l’annotazione di un testo che compare ripetutamente in un
documento.
•
Funzionalità per la visualizzazione e la ricerca: il software ha un sofisticato componente di
visualizzazione e di analisi statistica dei dati.
Sono inoltre disponibili le seguenti funzionalità:
– possibilità di paragonare due documenti etichettati e di assegnare un punteggio alla
comparazione;
– Alembic Text Processing: questa routine crea e salva in un file l’output etichettato in SGML;
– Learn Alembic Phrase Rules: “le Training Sources sono documenti che sono stati etichettati e
da cui l’acquisitore creerà delle regole di lettura e di annotazione”;
– la funzionalità “Extract Phrases” può essere usata per estrarre solo il testo che è stato
etichettato. Le etichette appaiono in formato SGML e possono essere ordinate
alfabeticamente (mediante la funzionalità Sort Phrases). Questo strumento è utile quando si
controllano gli eventuali errori o si analizzano esclusivamente le etichette;
– Segmentation Tagger: è studiato per aiutare l’utente a segmentare velocemente o
risegmentare (cioè aggiungere, rimuovere, e sistemare gli spazi in) un documento
E’ disponibile anche una modalità Editing, grazie alla quale è possibile inserire/cancellare dei
caratteri nel documento.
Il menù di Alembic (tratto dalla versione 2-12 per Unix):
File
•
•
•
•
•
•
•
•
•
•
•
•
About
New Workbench Viewer
Latin-1
CJK (caratteri cinesi, giapponesi, coreani)
Help
Open Document
Close
View Source SGML (mostra il codice SGML per un dato documento)
View Alembic Phrase Finding Rules
Save
Recover Original File (carica il file originale)
Quit
Tag (questo menù contiene il tagset attivo)
Options
•
Relations
Load Relation
E-256
•
•
•
•
•
•
•
Utilities
•
•
•
•
•
•
•
•
•
•
Load on Main Window
Load as Separate Window
Auto Tag
Add Coextensive Annotations
Allow Partial Matching
Off
Query Mode
Auto Mode
Auto-Confirm Mode
Language… (specifica la lingua usata nel documento. Un’ampia gamma di lingue è
disponibile)
Coreference
Show Coreference Targets
Highlight Coreference Chain
Remove “Highlighting” of Coreference Chain
“Hide” Coreference Chain
Hide Selected Coref Chain
Hide All Other Coref Chains
Restore “Hidden” Coreference Chains
File Loading Options
File Saving Options
Mouse and Display Options
Tag Preferences
Load Tag Preferences
Edit Tag Preferences
Find in current document…
Score files
AWB Scorer*
MUC Scorer*
Alembic Text Processing…*
Learn Alembic Phrase Rules…*
Perform Error Analysis of Rules…*
Extract Phrases…*
Compare Alternate Annotation…*
Segmentation tagger…*
(* = non disponibile nella versione beta 2-14 per Windows 95/NT)
1.3.1.4 Interfaccia utente
La maggior parte dei compiti sono svolti nella finestra principale, che mostra il documento che
deve essere annotato. Il software supporta lingue diverse e codici alfabetici diversi, per es.
Giapponese, Cinese e Coreano
Il testo può essere visualizzato:
•
in modalità a colori, che visualizza le etichette evidenziate
E-257
•
in modalità SGML, che visualizza il testo in SGML in un colore
I menu possono essere spostati ovunque sullo schermo. Sono disponibili comandi da tastiera per
l’annotazione del testo. I comandi sono visualizzati accanto ad ogni etichetta nella barra menu.
La barra di informazioni che si trova in basso rispetto alla finestra di testo mostra informazioni
sull’etichetta a cui punta il mouse.
1.3.1.5 Conclusioni
•
Usabilità: Lo strumento è distribuito gratuitamente. La versione 2-14 per Windows 95/NT è
facilmente installabile. Sono incluse molte funzionalità. Nel caricare i documenti, lo strumento
distingue fra formati SGML e non-SGML. Per gli utenti esperti lo strumento potrebbe
rappresentare una buona scelta.
Per quanto riguarda gli aspetti negativi, l’uso dello strumento risulta poco intuitivo per utenti
non esperti. Per quanto riguarda la visualizzazione, gli stessi colori sono usati per etichette
diverse su livelli diversi, che può confondere l’utente. L’aiuto è inadeguato. Nella maggioranza
delle finestre di aiuto il testo è incompleto. L’utente deve ricorrere alle pagine web di Alembic
per ottenere l’informazione di cui ha bisogno. Mancano esempi che illustrino l’uso delle
etichette, ed il feedback nella modalità di annotazione automatica è spesso insufficiente. Non
esiste una funzionalità per rimuovere gradualmente l’etichettatura. se un utente marca troppe
lettere, l’unico modo per correggere è premere il tasto di correzione e ricominciare
E-258
l’etichettatura da capo. Molte funzionalità disponibili nella versione 2-12 per Unix non sono
disponibili nella versione beta 2-14 per Windows 95/NT
•
Adattabilità: buona portabilità generale. La possibilità di definire le etichette e i tagsets permette
un’ampia gamma di usi e la portabilità a schemi di annotazione diversi.
•
Estendibilità: la documentazione non permette di valutare lo strumento sotto questo punto di
vista.
•
Grado di supporto relativamente a standard esistenti: lo strumento supporta il formato SGML.
Ulteriore documentazione è disponibile presso i siti:
http://www.mitre.org/resources/centers/advanced_info/g04h/workbench.html
http://www.mitre.org/resources/centers/advanced_info/g04h/workbenchv2.12/manual/
E-259
1.3.2 ANNOTAG
ANNOTAG è uno strumento per l’annotazione di dialoghi a livello pragmatico, sviluppato al
DFKI da Michael Kipp nel 1997. L’insieme delle etichette è fisso e non modificabile. ANNOTAG è
attualmente in uso per l’annotazione al livello di atti dialogici all’interno del progetto
VERBMOBIL, dove un insieme di 33 atti dialogici modella l’intenzione del parlante in dialoghi per
fissare appuntamenti.
ANNOTAG è scritto in Tcl/Tk (Tcl 7.5, Tk 4.1), usando l’estensione Tix (versione 4.1). E’
utilizzabile su workstations Sun con Solaris OS. Lo strumento è in grado di leggere e scrivere due
formati che sono utilizzati nel progetto Verbmobil: files traslitterati e files BAS partitur.
L’estensione ad altri formati come SGML è facilmente fattibile.
•
•
Funzionalità per l’annotazione: lo strumento è specificamente progettato per l’annotazione
degli atti dialogici. ANNOTAG distingue tra segmenti e turni. Una prima funzionalità consente di
segmentare i turni della trascrizione in unità più piccole (i segmenti, corrispondenti alle unità a
cui attribuire una categoria di atti dialogici): facendo doppio clic su una parola, l’annotatore
inserisce un segnale di delimitazione all’interno di un turno. ANNOTAG evidenzia il testo tra il
segno di delimitazione precedente (o dall’inizio del turno) e il segno di delimitazione inserito. Il
testo così evidenziato può dunque essere annotato scegliendo un’etichetta da un insieme
predeterminato di etichette pragmatiche. E’ inoltre possibile annotare un intero turno con una
etichetta. In tal caso, non è necessario fissare dei segnali di delimitazione.
Per un uso generale del software è importante considerare le seguenti restrizioni:
•
il testo sorgente deve avere dei confini di turno chiari (altrimenti l’intero testo viene
considerato un turno);
•
un turno può essere annotato suddividendolo, ovvero possono esserci delle parti non
annotate;
•
non è possibile annotare a cavallo di confini di turno.
•
Funzionalità per la visualizzazione e la ricerca: non sono disponibili informazioni su questo
aspetto.
•
Funzionalità di import/export dei dati: due sono i formati di import/export supportati: un
formato testo ed il formato BAS Partitur, in uso nel progetto Verbmobil. E’ tuttavia possibile
estendere lo strumento al trattamento di dati in formato SGML.
E-260
L’interfaccia di ANNOTAG è molto chiara. Una finestra principale rappresenta al centro il testo
da annotare. Sul lato sinistro e destro vi sono dei bottoni etichettati con il nome delle etichette.
Colori diversi sono usati per distinguere gruppi di etichette diversi.
1.3.2.5 Conclusioni
•
Usabilità: ANNOTAG è un esempio di strumento software con un’interfaccia ben disegnata. Le
componenti nella finestra sono disposte in maniera chiara e l’annotazione dei dati è facile ed
intuitiva. Per aiutare l’utente nel compito di selezione delle etichette da applicare ai segmenti, la
gerarchia di atti dialogici di VERBMOBIL può essere richiamata in una finestra separata. Le
correzioni avvengono semplicemente cliccando su un bottone Undo. Lo strumento è facile da
usare anche per utenti non esperti; l’interfaccia utente è gradevole e chiara e permette
un’annotazione veloce ed affidabile. Non sono disponibili comandi da tastiera: tutta
l’annotazione avviene mediante mouse.
Per quanto riguarda gli aspetti negativi, lo strumento non è disponibile liberamente.
•
Adattabilità: buona portabilità generale. L’insieme di etichette è modificabile, ma
esclusivamente per un solo livello di annotazione linguistica (quello pragmatico).
•
Estendibilità: l’estendibilità dello strumento è possibile ma difficoltosa.
•
Grado di supporto relativamente a standard esistenti: sebbene SGML non sia direttamente
supportato, l’estensione a questo tipo di formato e a XML è facilmente fattibile.
N. Reithinger & M. Kipp. Large scale Dialogue Annotation in Verbmobil. In corso di
pubblicazione.
E-261
1.3.3 CLAN
CLAN (Computerized Language Analysis) è un pacchetto integrato di programmi software in
uso nell’ambito del sistema CHILDES per l’analisi di corpora annotati. I programmi CLAN sono
progettati per sfruttare appieno il formato di trascrizione e di annotazione specifici del corpus
CHILDES e per facilitare un’ampia gamma di ricerche e di analisi.
Il programma CLAN è stato scritto in C++ da Leonid Spektor alla Carnegie Mellon University.
La versione corrente usa una GUI e gira su piattaforme Macintosh e Windows. Versioni precedenti,
senza interfaccia utente, girano anche su DOS e UNIX. CLAN permette di eseguire un’ampia
gamma di analisi automatiche su dati trascritti e annotati. Le analisi includono conteggi di
frequenza, ricerche di parole singole, analisi di co-occorrenza, conteggi di lunghezza media delle
enunciazioni, analisi interazionali, ecc. Ognuna di queste ricerche è eseguibile invocando routines
specifiche e indipendenti. Le routines possono essere richieste di produrre outputs indipendenti
oppure possono essere invocate a cascata, di modo che l’output di una routine specifica può
costituire l’input di un’altra routine. Ciò è possibile soltanto se l’output della prima funzione è dato
in formato CHAT. Il programma è orientato specificamente al trattamento di dati codificati nel
formato CHAT, anche se molte analisi possono essere eseguite su files ASCII di qualsiasi tipo.
1.3.3.3 Funzionalità e interfaccia utente
CLAN ha un numero di modalità diverse. Quando viene usato come strumento di analisi,
consente all’utente di eseguire delle analisi automatiche su trascrizioni. In questa modalità, fornisce
una finestra di comando che consente di eseguire comandi per l’esecuzione di analisi, e l’output
appare in un’altra finestra.
CLAN include un editor che può essere usato in molti modi diversi. Nel modalità CHAT, viene
facilitata la scrittura e l’editing di nuovi files o di files già esistenti in formato CHAT. Nella
modalità Coder, viene fornito un modo sistematico per inserire dei codici nella trascrizione. Se le
trascrizioni usate sono connesse a files audio digitali, la trascrizione può essere eseguita usando il
modo “sonic CHAT”, e viene visualizzato un editor di forma d’onda. E’ inoltre possibile usare
“Continuous Playback”, che fa ascoltare ogni enunciazione in sequenza, evidenziando le
enunciazioni mano a mano, oppure ascoltare una singola enunciazione cliccandoci sopra.
Altre funzionalità includono un editor video, un editor per la trascrizione secondo le convenzioni
proprie della Conversation Analysis, ed un esteso supporto all’editore audio.
E-262
1.3.3.4 Conclusioni
•
Usabilità: gli strumenti sono liberamente disponibili e costituiscono un insieme non integrato e
di relativamente facile utilizzo.
•
Adattabilità: dubbia
•
Estendibilità: le informazioni disponibili non permettono di valutare lo strumento sotto questo
aspetto.
•
Grado di supporto relativamente a standard esistenti: nessuno.
Maggiori dettagli sono disponibili nel manuale di CHILDES, disponibile in formato pdf alla
home page di CHILDES: http://atila-www.uia.ac.be/childes/
E-263
1.3.4 DAT (Dialogue Annotation Tool)
DAT è lo strumento di annotazione sviluppato presso il Dipartimento di Computer Science
dell’Università di Rochester, NY, USA, da Mark Core ([email protected]) e George
Ferguson ([email protected]).
E’ stato sviluppato specificamente per essere usato come strumento di applicazione dello schema
di annotazione DAMSL (Dialog Act Markup in Several Layers) (vedi parte II, sez. I, par. 4), creato
all’interno della Discourse Resource Initiative. Per una migliore comprensione si consiglia pertanto
di fare riferimento alla review dello schema di annotazione corrispondente.
Il codice sorgente ed il manuale di annotazione possono essere recuperati al sito
http://www.cs.rochester.edu/research/trains/annotation/.
DAT è scritto in perl-tk è può essere usato su tutti i sistemi per i quali perl-tk è disponibile. Il
formato di input dei dialoghi usa una etichetta speciale SGML per immagazzinare l’informazione
relativa ai turni e al markup direttamente nella traslitterazione. Ogni file contiene un dialogo intero.
I segmenti (o enunciazioni) nel file devono essere segmentati prima dell’annotazione. Questo
significa che la segmentazione e l’annotazione sono considerate come azioni separate.
E’ possibile ascoltare il segnale audio per i turni. Questo richiede un file audio per ogni turno. di
conseguenza, il parlato in sovrapposizione non può essere facilmente presentato.
Il file SGML ed i files audio devono essere nella stessa directory.
Funzionalità per la trascrizione: assenti.
Funzionalità per l’annotazione: la finestra principale presenta tutte le possibili etichette di
annotazione dello schema DAMSL, che permette di annotare lungo 15 dimensioni che sono
raggruppate nelle categorie "Forward Communicative Functions", "Backward Communicative
Functions", "Info Level", "Features". Compito dell’utente è selezionare un’etichetta per ogni
dimensione di annotazione, il che implica almeno 15 clicks per ogni segmento da annotare. Se il
segmento è una risposta ad un segmento o turno precedente, l’utente può o inserire manualmente il
numero di identificazione del segmento o turno oppure, dopo aver cliccato sul bottone SELECT,
può annotare il materiale direttamente nella finestra di testo.
Se l’utente ha cambiato l’annotazione e procede oltre ad annotare il segmento seguente, deve
confermare esplicitamente i cambiamenti apportati o premendo il bottone APPLY o, se se ne
dimentica, da un messaggio di avvertimento in una finestra extra.
Il software ha delle semplici regole per assicurare un minimo grado di consistenza
dell’annotazione attraverso le 15 dimensioni. Queste regole, così come le etichette per l’annotazione
sono cablate nel codice e non possono essere cambiate facilmente.
E-264
L’aiuto in linea non è disponibile.
Funzionalità per la visualizzazione e la ricerca: per la visualizzazione vedi sotto. Non sono
disponibili funzionalità per la ricerca sul materiale annotato.
Funzionalità di import/export: limitate. I dati devono essere etichettati in un formato quasiSGML.
L’interfaccia consiste di tre finestre. La finestra di inizio consente all’annotatore di selezionare il
dialogo da annotare. Una volta che un dialogo è stato selezionato, una nuova finestra sostituisce la
prima (vedi Figura 1). Questa nuova finestra consente all’utente di inserire informazione
sull’annotatore e sul contesto del dialogo.
Fig. 1: La finestra di informazione
E-265
Se l’utente clicca su una linea nella finestra in cui è presentata la traslitterazione segmentata, la
terza finestra rimpiazza la seconda (vedi Fig. 2):
Fig. 2: La finestra di annotazione
In alto troviamo il testo del dialogo. L’area principale della finestra mostra dei bottoni per la
navigazione e per il markup (annotazione). Le dimensioni di annotazioni di DAMSL sono
presentate in neretto sulla sinistra della finestra, ed i possibili valori sul resto della linea. La
selezione avviene premendo i bottoni piccoli sulla sinistra delle etichette.
E-266
1.3.4.5 Conclusioni
•
Usabilità: buona. L’interfaccia grafica è chiara e intuitiva.
Per quanto riguarda gli aspetti negativi, l’applicabilità dello strumento è limitata all’annotazione
del livello linguistico pragmatico, e le etichette non possono essere modificate. Inoltre, lo strumento
presuppone che gli utenti conoscano bene lo schema di annotazione per il quale è sviluppato. Per le
funzionalità disponibili, non è adatto per un’annotazione su larga scala. L’annotazione è lunga e
tediosa.
•
Adattabilità: scarsa. L’impossibilità di definire le etichette e i tagsets limita l’usabilità dello
strumento e la portabilità a schemi di annotazione diversi.
•
vista.
•
James Allen e Mark Core. 1997. Draft of DAMSL: Dialog Act Markup in Several Layers.
University of Rochester. http://www.cs.rochester.edu/research/trains/annotation/
E-267
1.3.5 DiET (Diagnostic and Evaluation Tools for natural language applications)
Lo scopo del progetto europeo DiET (LE 4204) consiste nello sviluppo di dati, metodi e
strumenti per la valutazione di componenti di NLP. In particolare, il progetto si concretizza nella
costruzione di uno strumento software che serva come un’architettura flessibile per l’integrazione di
strumenti diversi per la costruzione, l’archiviazione, il mantenimento e la customizzazione di dati
da usare per la valutazione di strumenti di NLP. Grande attenzione è posta ad evitare di imporre
troppe restrizioni sul tipo di dati, di annotazioni e di moduli esterni per la costruzione dei dati.
Benché quindi si tratti di uno strumento software concepito per un uso particolare e diverso da
quello classico dell’annotazione, come vedremo possiede delle caratteristiche interessanti e
modellabili alle necessità di uno strumento per l’annotazione.
DiET si configura come un pacchetto software implementato in un’architettura client/server
aperta, con un’interfaccia-utente grafica che costituisce il client centrale per la costruzione,
l’annotazione e la configurazione dei dati, e vari moduli, tra cui un data base e diversi strumenti di
annotazione automatica, che funzionano come servers. Il sistema è implementato in Java 1.15 ed il
formato di annotazione supportato è XML. Si considera qui l’interfaccia utente grafica, in quanto
rappresenta il modulo centrale per la costruzione, l’annotazione e la configurazione dei dati.
Funzionalità per l’annotazione: la componente di annotazione di DiET permette di annotare del
materiale testuale a livello morfologico, sintattico e di fenomeni del discorso. Il sistema fornisce
uno schema di annotazione flessibile, che comprende una quantità di tipi di annotazione già
esistenti; questi possono poi essere modificati facilmente dall’utente, oppure è possibile crearne di
nuovi in relazione agli specifici interessi. Queste modifiche possono essere eseguite facilmente per
mezzo dell’interfaccia grafica. Gli oggetti a cui è possibile associare un’annotazione sono: a)
stringhe, b) gruppi ordinati di stringhe, c) segmenti di stringhe.
Le annotazioni attualmente implementate riguardano il livello morfologico, sintattico e di analisi
del discorso. A livello morfologico è possibile specificare informazione sulla categoria lessicale e
connettere gli items lessicali alla rispettiva classe di ambiguità. A livello sintattico, l’informazione
sull’analisi strutturale dei testi è visualizzata mediante alberi grafici e rappresentazioni di
dipendenza, dove i nodi non terminali ricevono un’etichetta di categoria sintagmatica e gli archi
sono annotati con delle funzioni grammaticali. E’ inoltre possibile assegnare un giudizio di buona
formazione sintattica alla struttura complessiva.
Il livello di analisi del discorso fornisce informazione sulla direzione (per esempio, antecedente)
e sul tipo (per esempio, co-referenza) di relazioni semantiche tra i segmenti di testo.
Funzionalità per la visualizzazione: vedi sotto.
E-268
Funzionalità per la ricerca: vedi sez. 3.5.4. Non sono disponibili funzionalità per l’analisi
statistica dei dati.
Funzionalità di import/export: la documentazione disponibile non fornisce informazioni su
questo aspetto.
L’interfaccia-utente di DiET rappresenta il cuore dello strumento, e serve per inserire nuovi dati
e per annotare gli elementi con gli attributi che possono essere liberamente scelti e configurati
dall’utente. La figura (1) dà un’impressione della finestra principale dello strumento di annotazione.
La finestra sulla sinistra contiene il testo da annotare. La finestra sulla destra è divisa in due parti: la
finestra superiore mostra i tipi di annotazione, organizzati gerarchicamente, insieme ai valori
attribuiti all’elemento selezionato; la parte inferiore presenta informazioni ulteriori sui valori del
tipo di annotazione marcato nella finestra supriore.
L’interfaccia ad oggi consiste di due finestre distinte, la finestra principale ed una finestra dove è
specificata una gerarchia di annotazione di tipi diversi di annotazione (tags).
La finestra principale contiene tre aree. Una serve per rappresentare test suites, un’altra per
rappresentare la gerarchia di annotazione, ed una terza mostra i risultati dell’applicazione della
gerarchia di annotazione ad un segmento di test suite specificato.
Il processo di annotazione richiede per prima cosa uno schema di annotazione. Gli elementi di
base dello schema sono i tipi e gli attributi dell’annotazione, che possono essere ad esempio
strutture sintattiche ad albero con attributi come caso, numero, ecc. L’annotazione in sé è eseguita
marcando la test-suite e l’attributo corrispondente nella gerarchia di annotazione.
L’utente seleziona un elemento. Dal gruppo di tipi di annotazione sceglie un tipo di annotazione,
per esempio syntactic analysis, NP_coordination, ecc. Nella finestra in basso a destra appaiono i
campi appropriati per il tipo di annotazione dato, il che permette l’entrata dei valori. Nel caso
dell’analisi sintattica, per esempio, si tratterà di una finestra ad albero.
E-269
Figura 1: La GUI di DiET
L’utente può anche specificare un proprio tipo di annotazione. In tal caso, si apre una finestra di
dialogo (vedi figura 2). Per definire un nuovo tipo di annotazione, l’utente sceglie un nome per il
nuovo tipo, lo attribuisce al rispettivo tipo di dati, se necessario definisce la gamma di valori
accettabili, e lo posiziona all’interno della lista gerarchica dei tipi di annotazione. L’assegnazione
dei valori può essere configurata: i valori possono essere inseriti manualmente oppure possono
essere forniti attraverso un qualche server, per esempio l’utente seleziona un servizio (per es., un
tagger) che fornirà i valori. Esempi di annotazioni di questo tipo potrebbero essere strutture
sintagmatiche o relazionali sulle stringhe, relazioni anaforiche che fanno uso di data type arc,
giudizi di buona formazione con un valore booleano, ecc.
Sebbene la maggior parte delle funzioni di dichiarazione, selezione ed inserimento dei dati
descritte sopra venga eseguita nel modulo-cliente centrale, potrebbe anche esserci un numero di
servers specializzati e potenzialmente decentralizzati che supportano i compiti della costruzione e
dell’annotazione. L’annotazione (semi)-automatica dei dati per mezzo di servers è prevista per tipi
di annotazione standard come i taggers morfosintattici. Questo è disponibile per le tre lingue del
progetto (tedesco, inglese e francese), così come un componente morfologico per l’assegnazione di
classificazioni morfosintattiche standardizzate.
E-270
Figura 2: Configurazione dei tipi di annotazione
Il progetto DiET sviluppa un ambiente complessivo per la costruzione ed il mantenimento di dati
strutturali di riferimento per la diagnosi e la valutazione di applicazioni NLP.
Il sistema offre all’utente la possibilità di costruire e annotare dei dati scegliendo liberamente i
tipi di annotazione da un insieme definito, che è corredato di funzioni di editing, visualizzazione e
storing dell’annotazione.
Attraverso il processo di corpus profiling, è possibile stabilire dei collegamenti tra gli elementi
strutturati del test nel database ed i fenomeni connessi ai livelli della morfologia, sintassi e discorso
che occorrono in corpora relativi ad un dominio specifico. Il database ed alcuni strumenti aggiuntivi
permettono all’utente di definire uno scenario di valutazione e di recistrare il risultato dei cicli di
valutazione. La ricerca e la visualizzazione dei dati sono dunque permesse dal sistema, ma non
ancora implementate.
1.3.5.5 Conclusioni
•
Usabilità: DiET supporta l’annotazione, in particolare a livello morfologico, sintattico e
discorsivo (co-referenza); l’annotazione può essere adattata alle esigenze dell’utente, mediante
la definizione di insiemi di etichette definiti dall’utente. L’interfaccia utente è orientata in
E-271
questo senso, e fornisce un output strutturato ad albero. Fornisce il modo per aggiungere
annotazione più raffinata ai dati, al di là dell’annotazione morfosintattica e dell’analisi sintattica.
Per quanto riguarda gli aspetti negativi, lo strumento non dispone di funzionalità per le analisi
statistiche; inoltre, non è liberamente disponibile.
•
Adattabilità: essendo implementato in Java, la sua portabilità su piattaforme diverse è ottima. Le
etichette sono parzialmente adattabili, ma solo per quei livelli per i quali è già prevista
l’annotazione: non è invece possibile estendere lo strumento per rappresentare nuovi livelli di
annotazione. In particolare, sembra particolarmente difficoltosa l’estendibilità al livello
prosodico.
•
Estendibilità: DiET supporta l’integrazione di moduli autonomi esterni.
•
Grado di supporto relativamente a standard esistenti: supporta XML.
T. Kiss & D. Steinbrecher. 1998. “Lexical Replacement in Test Suites for the Evaluation of
Natural Language Applications”. In: Proceedings of 1st International Conference on Language
Resources and Evaluation, Granada, maggio 1998.
K. Netter, S. Armstrong, T. Kiss, J. Klein, S. Lehmann, D. Milward, S. Regnier-Prost, R. Schäer,
T. Wegst (1998). “DiET - Diagnostic and Evaluation Tools for Natural Language Applications”. In:
Proceedings of 1st International Conference on Language Resources and Evaluation, Granada,
maggio 1998.
Klein, J., Lehmann, S., Netter, K., e T. Wegst. 1998. “Construction and annotation of Test-items
in DiET”. ESSLLI, Saarbrucken, 17-28 agosto 1998.
Il sito del progetto: http://dylan.ucd.ie/DiET
E-272
1.3.6 EMU
EMU (www.shlrc.mq.edu.au/emu) è uno strumento di analisi e annotazione del parlato
liberamente disponibile, che supporta anche l’annotazione di livelli multipli e semplici funzioni di
ricerca.
Il software è scritto in C ed è quindi portabile ad altre piattaforme UNIX. I files di parlato hanno
una rappresentazione standard e la rappresentazione del file di annotazione è simile a quella usata
da esps/xwaves. EMU è costruito in base di Tcl/Tk.
Le piattaforme supportate sono Solaris, Linux, e Windows 95/NT.
Sono supportate opzioni di base per l’analisi e la visualizzazione del parlato, come view, “label”,
“listen”, e “analyze”. E’ inoltre possibile effettuare delle ricerche per l’informazione
multigerarchica.
L’interfaccia utente è un’interfaccia grafica con sottofinestre per il file di segnale, lo
spettrogramma e l’informazione di etichetta.
E-273
1.3.6.5 Conclusioni
•
Usabilità: EMU è uno strumento con funzionalità di base per l’annotazione, in particolare del
segnale vocale. E’ quindi particolarmente adatto per l’annotazione prosodica. Tuttavia, altri
livelli di annotazione linguistica non sono supportati. Commercialmente, è liberamente
disponibile. Sono inoltre consentite ricerche di informazione multigerarchica.
•
Adattabilità: buona. E’ portabile su piattaforme Unix e Windows95/NT.
•
vista.
•
Grado di supporto relativamente a standard esistenti: la documentazione non permette di
valutare lo strumento sotto questo punto di vista.
Disponibile al sito http://www.shlrc.mq.edu.au/emu
E-274
1.3.7 Entropic Signal Processing System (esps/xwaves+)
ESPS/XWAVES è un ambiente per l’analisi e la visualizzazione dei dati vocali. Costituisce uno dei
pacchetti software standard usati nelle tecnologie del parlato, anche in virtù della sua connessione
ad un toolkit HMM detto htk. Il software è prodotto da Entropic (www.entropic.com).
WAVES+
è uno strumento di visualizzazione e manipolazione interattiva dei dati specialmente
adatto per il trattamento dei dati vocali, ma utilizzabile per la visualizzazione di qualsiasi tipo di
dati allineati temporalmente. Include una serie di programmi per assistere nel calcolo degli
spettrogrammi, nell’analisi del segnale vocale, nella conversione dei dati, e nell’applicazione di
etichette temporali. Per mezzo di un’interfaccia flessibile e aperta verso ESPS (Entropic Signal
Processing System) o altro programmi di analisi del segnale, waves+ può eseguire un’ampia gamma
di funzioni predefinite o definite dall’utente.
è un insieme di più di 200 programmi UNIX per l’analisi del segnale, la manipolazione dei
dati, la visualizzazione dei dati e la costruzione di GUI.
ESPS
ESPS/XWAVES può essere descritto come un insieme di routines di analisi e di manipolazione del
segnale vocale che possono essere messi insieme ed eseguiti da scripts di shell UNIX. XWAVES è
un’interfaccia utente che usa tutte queste funzioni. Gli strumenti sono scritti in C e girano sulla
maggior parte di piattaforme UNIX (Sun SPARC, SGI, HP 9000/700, DEC Alpha, PC (Linux)).
I dati audio sono rappresentati in un formato specifico ma possono essere facilmente convertiti in
formato ASCII; le informazioni relative alle etichette sono archiviati in formato ASCII.
L’utente può utilizzare le funzioni fornite da una shell UNIX. Tuttavia, vi è un’interfaccia-utente
grafica che ha una finestra per ogni compito. Le finestre possono essere collocate in qualsiasi punto
dello schermo e sono manipolate per mezzo del mouse. E’ inoltre possibile invocare delle funzioni
diverse da quelle di ESPS/XWAVES dall’interno di XWAVES.
E-275
Lo scopo principale di questo pacchetto software è l’analisi e la manipolazione del segnale
vocale. Di conseguenza, tutte le funzioni principali relative a quest’area di applicazione sono
presenti: funzionalità di visualizzazione, modifica e ascolto di files di segnale, funzionalità di
analisi di spettro, di filtro e di sintesi. L’utente può inoltre etichettare i dati vocali. Il numero di
livelli di etichetta a cui è possibile accedere simultaneamente non è ristretto.
ESPS/WAVES+ è disponibile per la maggior parte degli ambienti UNIX. La versione 5.1 fornisce
un manuale completo e un’esauriente documentazione in linea. Fornisce inoltre accesso interattivo a
dati allineati in sequenza temporale in files di qualsiasi lunghezza e numero di canali. Genera e
visualizza degli spettrogrammi di qualità con parametri di analisi interamente definibili dall’utente.
Le operazioni sul segnale possono essere eseguite mediante interazioni via mouse/bottone/menu o
via comandi inviati da altri processi UNIX. Le visualizzazioni dei dati composte sullo schermo
possono essere trasformate in files PostScript per essere incluse in documenti o stampate.
L’interfaccia-utente grafica di WAVES+ è customizzabile di modo che tutto ciò che è possibile
sotto UNIX può essere invocato attraverso la GUI con i risultati immediatamente visibili per mezzo
di WAVES+. Questo strumento esegue facilmente la registrazione digitale di segnale, l’editing ed il
riascolto di files a canale unico e multiplo. Molti metodi di analisi di spettro sono pre-caricati in
WAVES+ ed un’ampia gamma può essere aggiunta. lo strumento ALIGNER interagisce con WAVES+
per generare e visualizzare allineamenti automatici dei segnali vocali e del testo corrispondente.
1.3.7.5 Conclusioni
Per gli scopi di SI-TAL xwaves è troppo esclusivamente orientato verso l’analisi del segnale
vocale. Sebbene sia sostenuto che lo strumento è altrettanto adatto per il trattamento di altri tipi di
dati, al momento non è possibile esprimere un giudizio sotto questo aspetto.
E-276
Ulteriore documentazione è disponibile al sito:
http://www.entropic.com/products/esps_old/esps.html
E-277
1.3.8
FRINGE (Università di Edinburgo)
FRINGE è uno strumento per la visualizzazione dell’annotazione, attualmente in corso di
sviluppo presso il Centre for Speech Technology Research dell’Università di Edinburgo. Una volta
completato, sarà di pubblico accesso per scopi di ricerca. E’ inteso per essere usato in congiunzione
con il sistema di sintesi del parlato FESTIVAL, ma è possibile che il suo uso sia molto più esteso.
FRINGE è scritto in Java, per scopi di portabilità. Al momento richiede anche il codice nativo
dagli Edinburgh Speech Tools per la manipolazione di oggetti di basso livello. Una versione
completamente in Java sarà probabilmente disponibile in futuro. Al momento lo strumento può
girare soltanto su Solaris e Linux, anche se l’interesse è ovviamente verso una maggiore portabilità
del sistema.
FRINGE consente all’utente di vedere una struttura ad albero di diversi livelli di annotazione, o
di vedere ciascun livello separatamente, insieme ad una forma d’onda. E’ possibile vedere più di
una forma d’onda allo stesso tempo. Al momento sono disponibili esclusivamente le funzionalità di
visualizzazione dell’annotazione; in futuro, sarà anche possibile intervenire sull’annotazione
visualizzata per modificarla.
La versione attuale di FRINGE è una versione sperimentale.
Le figure 1-2 illustrano uno dei modi di visualizzazione di FRINGE. E’ possibile visualizzare gli
attributi di tutte le celle, ed in futuro sarà possibile crearle e modificarle. E’ inoltre possibile
visualizzare una forma d’onda del parlato.
E-278
Figura 1
Figura 2
Una relazione unisce insieme gli elementi di uno stesso tipo linguistico. Per esempio, potremmo
avere una relazione-parola, fono, sillaba o una relazione sintattica. Le relazioni sono generiche
strutture a grafo, e il tipo più comune è costituito da una semplice lista con doppio legame: per
esempio, la relazione-parola è una lista a doppio legame che unisce tutte le parole in una
enunciazione nell’ordine in cui occorrono. Le relazioni possono anche prendere la forma ad albero.
Per esempio, si ha una relazione di struttura di sillaba che rende la struttura della sillaba in nucleo e
coda, che costituiscono la rima, e la struttura onset-rima. L’aspetto cruciale è rappresentato dal fatto
che gli elementi possono entrare in più di una relazione. Per esempio, una relazione sintattica è un
albero i cui elementi terminali sono parole, che a loro volta sono connessi nella relazione-parola.
1.3.8.5 Conclusioni
I principali aspetti positivi di Fringe riguardano la portabilità del sistema su tipi di piattaforme
diverse, e le strategie di visualizzazione adottate. Il suo interesse per gli scopi di SI-TAL è tuttavia
E-279
limitato, dal momento che le funzionalità dello strumento sono circoscritte esclusivamente alla
visualizzazione di materiale già annotato.
Disponibile presso il sito http://www.cstr.ed.ac.uk/projects/fringe.html
E-280
1.3.9 MATE (Multilevel Annotation, Tools Engineering)
MATE è uno strumento, sviluppato nell’ambito dell’omonimo progetto europeo, specificamente
orientato per assistere l’utente nella costruzione di corpora annotati di materiale dialogico, ma il suo
uso può essere esteso per qualsiasi insieme arbitrario di files connessi mediante legami di
hyperlinking in XML. In particolare, l’uso di MATE è previsto in congiunzione con corpora annotati
a più livelli di annotazione linguistica. Il progetto ne prevede cinque: prosodico, morfosintattico,
sintattico, di co-referenza, e pragmatico. Particolare attenzione viene anche dedicata agli aspetti di
intercorrelazione dell’informazione annotata su più livelli diversi. Lo strumento è offerto con in
dotazione un insieme di dati pre-annotati e con gli schemi di annotazione corrispondenti ai livelli
descritti sopra. Tuttavia, la caratteristica principale di MATE è quella di permettere la definizione di
un numero arbitrario di schemi di annotazione per un numero arbitrario di livelli di annotazione.
L’utente, oltre a definire il tipo di informazione che vuole codificare relativamente ad un certo
corpus, può anche scegliere la modalità di visualizzazione del corpus annotato. Anche in questo
caso, vengono fornite delle modalità di visualizzazione pre-definite. Infine, lo strumento offre delle
funzionalità per l’estrazione di informazione.
MATE è interamente implementato in Java, ed il formato supportato è XML.
1.3.9.3 Funzionalità e Interfaccia utente
MATE si configura come uno strumento per l’annotazione di corpora dialogici, la
visualizzazione dell’informazione annotata, e la ricerca di informazione per un numero arbitrario di
parametri. MATE prende in input dati trascritti in formato ASCII o XML, e restituisce dei dati
annotati su uno o più livelli di informazione. Il formato di output è XML.
Funzionalità per l’annotazione: permette l’annotazione di files importati in XML ad un numero
arbitrario di livelli e con schemi definiti dall’utente; i livelli e gli schemi di annotazione preinstallati concernono il livello di annotazione prosodica, quello morfosintattico e sintattico, il livello
di co-referenza, il livello pragmatico ed il livello di problemi della comunicazione.
Funzionalità per la visualizzazione e l’esplorazione: MATE permette di visualizzare i dati
annotati ai diversi livelli, secondo modalità e stili sia predefiniti che definiti dall’utente. L’utente
può anche scegliere di visualizzare combinazioni di informazione annotata a livelli distinti (per
esempio, informazione pragmatica associata ad informazione prosodica), estratta mediante le
funzionalità di estrazione di informazione. La stessa funzionalità può essere utilizzata per
paragonare le annotazioni eseguite da annotatori diversi.
Funzionalità per la ricerca: MATE offre la possibilità di eseguire ricerche sul materiale annotato
e su qualsiasi documento codificato in XML secondo combinazioni arbitrarie di parametri mediante
un linguaggio ed un processore di ricerca potenti, implementati come moduli indipendenti del
software.
E-281
Funzionalità di import/export: sono disponibili funzioni di importazione dal formato BAS
Partitur e dal formato Xwaves Xlabel di Entropic a XML mediante due convertitori interni.
1.3.9.4 Conclusioni
•
Usabilità: MATE è uno strumento, a breve liberamente disponibile, che supporta l’annotazione
multi-livello; l’annotazione può essere customizzata mediante la definizione di tagsets definiti
dall’utente. L’interfaccia utente è semplice ed intuitiva. Possiede utili funzionalità di
visualizzazione e di ricerca del materiale annotato.
•
Adattabilità: ottima. Gli utenti possono definire i propri schemi di annotazione e le modalità di
visualizzazione dell’annotazione. Essendo scritto in Java, è portabile su tipi di piattaforma
diverse. E’ portabile su piattaforme Unix e Windows95/NT.
•
Estendibilità: è prevista l’integrabilità di moduli autonomi esterni come quelli già esistenti per
l’esecuzione di ricerche e per la visualizzazione e l’annotazione del segnale vocale.
•
Grado di supporto relativamente a standard esistenti: MATE fa uso di XML come formato di
rappresentazione dell’annotazione e come formato di rappresentazione interno.
Disponibile presso il sito del progetto MATE: http://mate.nis.sdu.dk
Per una panoramica delle specifiche di MATE, vedi anche:
http://www.cogsci.ed.ac.uk/~amyi/mate/report.html
E-282
1.3.10 Nb – Nota Bene
1.3.10.1
Introduzione
Nb è uno strumento software per l’annotazione della struttura discorsiva di dati dialogici,
monologici e testuali, dotato di un’interfaccia-utente grafica. Istruzioni di annotazione e teorie
diverse relative all’interpretazione e alla generazione del discorso possono essere facilmente
incorporate nel processo di annotazione senza che sia necessario cambiare l’interfaccia-utente
grafica. Le istruzioni ed il testo annotato sono visualizzate in modo chiaro, e la digitazione manuale
è ridotta al minimo.
1.3.10.2
Caratteristiche tecniche
Nb è scritto in Tcl/Tk (Tcl Versione 7.4 e Tk Versione 4.0 o superiore). Sono disponibili sia una
versione per Windows 95/NT che una versione per Unix.
1.3.10.3
Funzionalità
Funzionalità per l’annotazione: Nb è uno strumento che offre funzioni per l’annotazione e la
visualizzazione di dati testuali, siano essi dialogici che monologici. Nb offre la possibilità di
annotare testi al livello pragmatico, in termini di segmenti relativi ad un determinato argomento, atti
dialogici ecc. Tuttavia, è possibile importare delle etichette definite dall’utente. Le principali
caratteristiche funzionali sono le seguenti:
1. Vi sono delle etichette definite per gli atti del discorso (corrispondenti al livello pragmatico in
SI-TAL)
2. L’insieme di etichette può essere esteso dall’utente
3. La versione Unix del software dovrebbe avere la possibilità di mostrare immagini, ascoltare
files di suono e visualizzare alberi sintattici (cfr. Fig. 1 e 2). La versione per Windows non ha
queste caratteristiche.
Funzionalità per la visualizzazione: l’annotazione viene visualizzata scegliendo l’opzione
“Annotation” dal menù “View”. E’ inoltre possibile confrontare due annotazioni diverse che
vengono mostrate in due finestre separate contemporaneamente disponibili.
E-283
Figura 1. La finestra di visualizzazione degli alberi sintattici. Un albero mostra l’incassamento delle etichette.
Figura 2. Un’altra finestra di visualizzazione dell’analisi sintattica.
Funzionalità per la ricerca: assenti.
Il menù di Nb (tratto dalla versione per Windows):
E-284
File
• Open (l’utente seleziona un file da aprire)
• Save
• Exit
Tag (customizzabile dall’utente)
• Segment (questo comando delimita delle porzioni di testo arbitrariamente definite
dall’utente)
List_Movies_Playing_At_The_Theater
Where_Is_This_Movie_Playing
... (ulteriori segmenti disponibili in base al tagset in uso)
• Topic
Movie
Location
... (ulteriori argomenti disponibili in base al tagset in uso)
View
• Annotation (apre una finestra in cui l’annotazione della segmentazione è visualizzata
mediante colori diversi e visualizza la barra colorata, cf. figura 3)
• Colors (apre una finestra che contiene una lista delle etichette e dei colori usati)
• Find Text (apre una finestra in cui si può scrivere una stringa di testo da trovare nel
documento. Tutte le occorrenze di quel testo vengono poi marcate nel documento)
• Parse (non ancora implementata nella versione per Windows 95/NT. Manca nella
versione Unix)
Edit
• Undo Last
• List Tags (apre una finestra contenente una lista delle etichette usate nel documento. In
questa finestra i nomi delle etichette possono essere modificati)
• Add Choice (una nuova etichetta può essere definita e inserita nel menù Tag)
Mode (definisce il modo di annotazione)
• Tag Words
• Tag Lines
• Edit Text (permette all’utente di modificare il testo nel documento)
Help
• ... (La versione per Windows ha una lista di otto argomenti d’aiuto. La versione per
Unix fornisce un documento d’aiuto più dettagliato contenente hyperlinks ad altre
pagine, esempi ed esercizi)
• About Nb
1.3.10.4
Interfaccia utente
1. la maggior parte delle attività sono eseguite nella finestra principale, dove è visualizzato il
documento da annotare
2. le parole annotate sono evidenziate mediante colori diversi
3. in una finestra di visualizzazione dell’annotazione, una barra colorata sulla sinistra della
finestra principale mostra i livelli di incassamento della segmentazione, vedi fig. 3.
4. i menù possono essere staccati e posizionati in una posizione qualsiasi sullo schermo
E-285
5. Una finestra separata e una barra di informazione situata nella parte inferiore della finestra
principale mostra informazioni relative all’etichetta indicata dal mouse
Figura 3. Alcune schermate di Nb. Da sinistra: la trascrizione del testo, il testo segmentato e la visualizzazione
dell’annotazione
E-286
Figura 4. La finestra di visualizzazione dell’annotazione.
1.3.10.5
•
Conclusioni
Usabilità: Nel complesso, Nb è uno strumento di uso facile ed intuitivo, anche per utenti non
esperti. L’installazione è molto facile. La visualizzazione contiene molte caratteristiche utili che
facilitano il compito di annotazione: ad esempio, la barra di informazione che contiene
informazione sulle etichette è molto utile; è disponibile la funzione Undo, che permette di
annullare qualsiasi cambiamento indesiderato. Una finestra di messaggi separata mostra dei
messaggi informativi sulle operazioni svolte. Le pagine di aiuto sono di grande ausilio per
l’utente, con ricchezza di esempi ed esercizi.
Per quanto riguarda gli aspetti negativi, la visualizzazione dell’annotazione mediante colori
diversi può risultare poco efficace, specie se si usano molte etichette diverse nello stesso
documento. Le etichette sovrapposte non sono permesse. La versione per Windows non permette la
visualizzazione degli alberi sintattici, né di ascoltare files di suono o di visualizzare immagini
grafiche. La versione per Unix dovrebbe supportare queste caratteristiche, ma non sono state
trovate. Le versioni per Windows e per Unix differiscono in alcune funzionalità. Per esempio, la
versione Unix non possiede le opzioni “Tag Words” e “Edit Text” nel menù Mode. L’utente non
può aggiungere nuovi segmenti/argomenti alla lista dei segmenti/argomenti esistente. Nel
complesso, le funzionalità sono purtroppo ancora limitate rispetto alle esigenze in Si-TAL.
E-287
•
Adattabilità: l’adattabilità dello strumento è discreta, in considerazione della sua disponibilità
per almeno due tipi di piattaforme diverse. La possibilità di definire le etichette e i tagsets
permette un’ampia gamma di usi e la portabilità a schemi di annotazione diversi.
•
vista.
•
1.3.10.6
Documentazione
Ulteriori informazioni sono disponibili al sito:
http://www.sls.lcs.mit.edu/~flammia/Nb.html
E-288
1.3.11 TATOE
1.3.11.1
Introduzione
TATOE (Text Analysis Tool with Object Encoding) è uno strumento di supporto per l’analisi
testuale, sviluppato da Melina Alexa (ZUMA, Mannheim, Germania), e da Lothar Rostek (GMD,
Darmstad, Germania). Offre funzionalità per l’esplorazione di corpora annotati e per l’annotazione
automatica e semi-automatica di dati testuali, e supporta un’ampia gamma di funzioni connesse
all’analisi testuale multi-livello assisitita da computer.
1.3.11.2
TATOE
è
implementato
in
VisualWorks©
Smalltalk
di
ObjectShare
(http://www.objectshare.com). Ha un modello di dati orientato a oggetti object-oriented, che è
basato su Terminology Framework, che consente l’integrazione di risorse terminologiche orientate
al concetto e alla parola e su Smalltalk Frame Kit (SFK), uno strumento di modellizzazione objectoriented, che offre un’ampia gamma di caratteristiche per rendere operative le descrizioni di
modello. I corpora e le annotazioni ad esse associate sono archiviati come una rete di unità di
informazione connesse sotto forma di oggetti (per un approccio simile, vedi MATE, sez. 1.3.9).
1.3.11.3
Funzionalità
TATOE supporta l’analisi semi-automatica dei testi in un’ampia gamma di domini. L’analisi
opera su livelli multipli quando è usato più di uno schema di annotazione. Alcune delle principali
funzioni di TATOE sono descritte brevemente di seguito.
Funzionalità per l’annotazione: creazione e mantenimento di schemi di annotazione piatti o
strutturati; codifica semi-automatica o manuale del testo sulla base di schemi di annotazione diversi.
Funzionalità per la visualizzazione: interazione, in molti modi diversi, con testi già annotati e
presentazione del testo e dell’annotazione in varie modalità di visualizzazione; definizione dello
stile di visualizzazione dell’annotazione esistente.
Funzionalità per la ricerca: esecuzione di ricerche su testo e su testo annotato; elaborazione di
grafi distribuzionali di co-occorrenza; definizione di schemi di ricerca complessi, consentendo la
combinazione di categorie di schemi e di stringhe diverse.
Funzionalità di import/export: i dati testuali possono essere importati in formato ASCII, HTML
e XML. E’ inoltre possibile l’importazione di dati testuali contenenti marcatori strutturali (come ad
esempio testi dialogici con indicazione dei limiti di turno), e l’importazione di dati testuali
analizzati morfologicamente (questa funzione è disponibile soltanto per il tedesco); l’annotazione
viene archiviata in uno schema separato, riutilizzabile per analisi successive. L’esportazione
dell’annotazione può avvenire verso in un file con sintassi SPSS©; i dati completi possono essere
esportati in XML e HTML.
Il menù di TATOE:
E-289
File
•
•
•
•
Open TextBase: apre un file che contiene dati testuali
Print…
Import…
Export…
• current screen content: salva uno o più testi selezionati come files ASCII
• selected texts to HTML: salva uno o più testi selezionati come HTML
• selected texts for tagging: salva uno o più testi selezionati nel formato di input per il tagger
morfosintattico connesso a TATOE (Morphy tagger; per il tedesco)
• open export screen: apre la pagina export del Notebook
• Exit
Sort Word/Code Index: contiene opzioni per l’ordinamento degli elementi che si trovano nella lista
contenuta nel pannello Word/Category Index
•
Sort
• by name: ordina la lista alfabeticamente
• by frequency: ordina per frequenza i lemmi delle parole che occorrono più di una volta nel
•
•
•
corpus
by nr of paragraphs: elenca per frequenza gli elementi che occorrono nella maggior parte dei
paragrafi del corpus
by nr of texts: elenca per frequenza gli elementi che occorrono nella maggior parte dei testi del
corpus
hapax legomena: elenca i lemmi che occorrono una sola volta nel corpus
Count: contiene opzioni per la costruzione di tavole di distribuzione della frequenza di occorrenza dei
segmenti codificati e per l’ottenimento di calcoli statistici
• concept types: tutte le occorrenze dei segmenti annotati per lo schema di annotazione visualizzato
• concept types (cumulative): il totale di tutti i tipi di segmenti annotati con il totale cumulativo dei
segmenti annotati con le categorie più generali di uno schema (organizzato gerarchicamente)
• concept tokens: tutte le occorrenze identiche di segmenti annotati per ogni categoria dello schema
di annotazione selezionato
• concept token (cumulative): il totale di tutte le occorrenze dei segmenti annotati con il totale
cumulativo dei segmenti annotati con le categorie più generali di uno schema (organizzato
gerarchicamente)
• text stats: apre una finestra con informazioni varie su tutti i tipi principali di oggetti (lemmi, parole,
testi, paragrafi, schemi, ecc.)
Concordance: permette di visualizzare i testi in modi diversi, a seconda delle opzioni scelte
• Full text: riporta la visualizzazione da una visualizzazione di concordanze a una di testo intero
• selection concordance: visualizza le concordanze per una parola selezionata
• category concordance: visualizza le concordanze per una determinata categoria di schema
• term concordance: visualizza le concordanze per un segmento selezionato
• pattern: apre la pagina “pattern” del Notebook
• lists: apre la pagina “lists” del Notebook
• KWIC (Key Words In Context)
• right sorted: visualizza le occorrenze di una parola o una sequenza di parole, e ordina
•
alfabeticamente i segmenti che occorrono alla destra del segmento selezionato
left sorted: visualizza le occorrenze di una parola o una sequenza di parole, e ordina
alfabeticamente i segmenti che occorrono alla sinistra del segmento selezionato
E-290
Cooccurences: genera una lista di frequenza di parole o “sintagmi” che co-occorrono con una parola o
una sequenza di parole selezionata
•
•
•
•
•
left and right context words
left content words
left context phrases
right context words
right context phrases
Coding
• open Coding Screen: apre la finestra di codifica per annotare un testo o per modificare
•
l’annotazione esistente
Categorisation Scheme: apre la pagina “Categorisation Scheme” del Notebook
Tatoe_Notebook: apre una nuova finestra che contiene le varie possibilità di operazione in TATOE
organizzate come segnalibri di un taccuino.
Misc: fornisce una lista delle finestre aperte
Help
•
•
Contents: indice tematico con parole-chiave per cercare aspetti particolari di TATOE
About Tatoe: descrizione generica dello strumento
1.3.11.4
Interfaccia utente
TATOE fornisce un’interfaccia intuitiva per l’esplorazione e la codifica dei testi. La figura
seguente illustra una schermata della finestra principale.
E-291
1.3.11.5
Conclusioni
TATOE presenta un insieme di caratteristiche molto interessanti per un suo possibile uso in SITAL. In particolare:
•
Usabilità: Lo strumento è distribuito gratuitamente. Sono comprese tutte le funzioni principali di
annotazione, visualizzazione e ricerca.
Per quanto riguarda gli aspetti negativi, l’uso dello strumento risulta poco intuitivo per utenti
non esperti.
•
Adattabilità: ottima. La possibilità di definire le etichette e gli insiemi di etichette permette
un’ampia gamma di usi e la portabilità a schemi di annotazione diversi. Non è tuttavia possibile
adattare lo strumento alle esigenze dell’annotazione prosodica.
•
vista.
•
Grado di supporto relativamente a standard esistenti: lo strumento supporta il formato XML.
E-292
1.3.11.6
Documentazione
Ulteriori informazioni sono disponibili presso il sito di TATOE:
http://www.darmstadt.gmd.de/~rostek/tatoe.htm
Alexa, M. & L. Rostek. 1996. Computer-assisted corpus-based text analysis with TATOE.
E-293
1.3.12 TRANSCRIBER
1.3.12.1
Introduzione
TRANSCRIBER è uno strumento, sviluppato presso il Linguistic Data Consortium, che serve per la
segmentazione, l’etichettatura e la trascrizione manuali di corpora di parlato. In particolare, è
specificamente progettato per la trascrizione di registrazioni di tipo televisivo (notiziari) di lunga
durata, con etichettatura dei turni e dei cambiamenti di argomento.
1.3.12.2
Il linguaggio di programmazione è Tcl/Tk con estensioni in C. TRANSCRIBER si avvale
dell’estensione di suono Snack, che consente di supportare la maggior parte dei formati audio, ed il
generatore lexer tcLex. E’ stato testato su vari sistemi Unix (Linux, Sun Solaris, Silicon Graphics) e
Windows NT. Distribuito liberamente come freeware sotto la GNU General Public License.
1.3.12.3
Funzionalità
TRANSCRIBER è uno strumento software che serve per velocizzare la fase di trascrizione del
segnale vocale. Pertanto le sue funzionalità sono limitate esclusivamente a questo aspetto. Le
caratteristiche principali sono le seguenti:
•
trattamento di diversi livelli di segmentazione: segmentazione di base per la trascrizione
ortografica, segmentazione in turni (ogni nuovo parlante), e segmentazione in sezioni (nuovo
argomento); questi tre livelli sono gerarchicamente incassati. E’ inoltre disponibile una
quarta segmentazione per segnalare le condizioni acustiche di sottofondo.
•
visualizzazione delle segmentazioni sotto il segnale e nell’editor di testo; visualizzazione di
ogni segmentazione sotto il segnale può essere disattivata con un menù contestuale.
•
editing della trascrizione ortografica della segmentazione di base in un editor di testo
•
i cursori nella finestra dell’editor di testo e nella finestra di segnale sono sempre
sincronizzati: non appena il cursore si muove in una finestra si muove anche quello nell’altra
ed appare all’interno dello stesso segmento
•
facile creazione della segmentazione di base per mezzo di inserimenti successivi di
delimitazioni nella posizione corrente del cursore, senza interrompere l’ascolto
•
i segnali di delimitazione dei segmenti possono essere spostati mediante il mouse
•
modifica (eliminazione inclusa) di turni, sezioni o condizioni di background con un clic del
mouse sul bottone corrispondente nell’editor
•
mantenimento di una lista dei parlanti con una precisa descrizione di ognuno (nome, tipo,
accento, …), e modifica delle caratteristiche della lista
•
ricerca di turni che riguardano un parlante particolare, importazione di parlanti da un’altra
trascrizione
E-294
•
mantenimento di una lista di argomenti; ritrovamento di sezioni relative ad un argomento;
importazione di argomenti da altri files
•
trattamento specifico del parlato in sovrapposizione con marcatori per ogni parlante
nell’editor di testo
•
inserimento di eventi predefiniti (rumori, segnali di pronuncia, marcatori lessicali, cambi di
lingua); visualizzazione degli eventi definita dall’utente (carattere, colore, formato); modifica
o rimozione mediante clic sull’evento nel testo
•
caratteristiche standard degli editori di testo: funzioni di cut/copy/paste, find/replace, undo
•
glossario di espressioni o parole predefinite
•
trascrizioni in formato XML; validazione sintattica dei files sulla base della loro DTD
•
quando un file viene aperto viene effettuata una ricerca automatica del file audio
corrispondente; se nessun file viene trovato, viene richiesto all’utente di specificarne uno.
•
importazione di trascrizioni .typ in formato .typ e vari modi di annotazione (xwaves, OGI,
…); esportazione verso .typ e .stm
•
le versioni precedenti sono mantenute in un file di backup
Gli aspetti relativi al trattamento del segnale vocale sono i seguenti:
TRANSCRIBER supporta la maggior parte dei formati audio standard (.wav, .au, .snd, .aiff, .smp, e
Sphere); è in grado di trattare files audio di lunga durata (fino a diverse ore). E’ consentito l’accesso
diretto a qualsiasi posizione nel segnale, ed è possibile selezionare parte del segnale. Durante
l’ascolto, il cursore viene sincronizzato. Sono disponibili diversi modi di ascolto per mezzo di
combinazioni di comandi da tastiera: play/pause, play the current segment, the selection, around the
cursor. E’ possibile cambiare interattivamente la risoluzione senza interrompere l’ascolto, e due
diverse visualizzazioni del segnale, a due risoluzioni diverse, sono visualizzabili
contemporaneamente.
Altre caratteristiche generali riguardano operazioni standard di adattamento delle finestre,
definizione di colori e caratteri, funzionalità di informazione relative alle sessioni di lavoro, ecc.
1.3.12.4
Interfaccia utente
La finestra principale di TRANSCRIBER è mostrata nella figura seguente. La metà superiore della
finestra contiene la barra di menù e la sottofinestra di editor di testo nella quale è possibile digitare
la trascrizione. Ogni nuova sezione, corrispondente ad un nuovo argomento, è segnalata da un
bottone arancione in mezzo alla linea. Ogni nuovo parlante è segnalato da un bottone blu sulla
sinistra della linea in cui è contenuta la trascrizione.
Al centro della finestra si trova una barra di bottoni che serve per l’ascolto del segnale o per la
visualizzazione di informazioni. Nella parte inferiore della finestra compaiono il segnale ed i vari
tipi di segmentazione, che è sincronizzata con il segnale.
E-295
1.3.12.5
Conclusioni
TRANSCRIBER è uno strumento specificamente progettato per la creazione di trascrizioni da files
audio; un’ampia gamma di funzionalità è presente, che complessivamente rendono lo strumento una
scelta raccomandabile per la costruzione di trascrizioni in un corpus. L’uso è molto semplice, e
l’interfaccia-utente configurabile. Il suo uso in SI-TAL potrebbe dunque essere di complemento e
supporto alla fase di costruzione del corpus.
1.3.12.6
Documentazione
Ulteriori informazioni sono disponibili presso il sito:
http://morph.ldc.upenn.edu/mirror/Transcriber/
E-296
1.4
Tavole comparative
ALEMBIC
ANNOTAG
CLAN
funzionalità per la no
trascrizione
no
funzionalità
per sì
l’annotazione
sì,
limitata
a sì
livello pragmatico
sì,
limitata
a
livello pragmatico
permette
l’annotazione
multilivello
no
no
no
funzionalità
per sì
visualizzazione e
ricerca
???
ricerca
visualizzazione
funzionalità
import/export
sì
??
no
di ???
no
DAT
no
usabilità
buona
buona
buona
non eccellente
adattabilità
buona
buona
buona
scarsa
estendibilità
???
difficoltosa
???
???
standard
supportati
SGML
possibile
estensione
SGML e XML
nessuno
scarsa
DIET
a
EMU
ESPS/XWAVES+
trascrizione
no
funzionalità
per sì
l’annotazione
etichettatura del sì
segnale vocale
no
permette
l’annotazione
multilivello
sì
no
sì
funzionalità
per sì
visualizzazione e
ricerca
ricerca
sì
sì
funzionalità
import/export
???
??
???
sì, a tre livelli
di ???
no
FRINGE
no
usabilità
buona
limitata al livello limitata al livello buona
prosodico
prosodico
adattabilità
buona
buona
limitata
-
standard
XML
???
-
-
E-297
supportati
MATE
NB
TATOE
TRANSCRIBER
trascrizione
no
no
sì
funzionalità
per sì
l’annotazione
sì
sì
no
permette
annotazione
multilivello
no
sì
-
display
sì
-
sì
sì
sì
funzionalità
per sì
visualizzazione e
ricerca
funzionalità
import/export
di sì
usabilità
ottima
discreta
discreta
ottima
adattabilità
ottima
-
ottima
-
standard
supportati
XML
quasi-SGML
XML, HTML
XML;
tutti
i
principali standard
di formato audio
E-298
2 Specifiche software
E-299
In questa sezione illustriamo le specifiche relative agli strumenti software di ausilio
all’annotazione, all’estrazione e alla visualizzazione dell’informazione annotata ai diversi livelli
previsti per la componente Dialoghi Annotati in SI-TAL. La sezione si struttura nel modo seguente:
2.1
Introduzione
Nel capitolo relativo alla descrizione dello stato dell’arte degli strumenti software (vedi parte III,
cap. I) sono stati presentati numerosi strumenti che, del tutto o in parte, rispondono alle esigenze
specifiche del tema. Alcuni di essi si prestano ad essere considerati come potenziali candidati per
essere acquisiti in TAL. A tal fine, tuttavia, è necessario che uno strumento soddisfi alcuni requisiti
di base:
a) funzionalità richieste: gli strumenti devono possedere le funzionalità rilevanti per il loro
utilizzo in SI-TAL. In particolare, essi devono offrire funzionalità di ausilio all’annotazione,
funzionalità per la visualizzazione dell’informazione annotata, funzionalità di esplorazione
del corpus annotato ed infine funzionalità di estrazione dell’informazione. Dette funzionalità
devono essere disponibili per ognuno dei livelli per i quali è prevista l’annotazione ed inoltre
deve essere possibile condurre ricerche avanzate relativamente alle relazioni inter-livello fra
le annotazioni.
b) adattabilità: gli strumenti devono poter essere facilmente adattabili agli schemi di
annotazione sviluppati in SI-TAL;
c) estendibilità: gli strumenti devono poter essere facilmente estendibili, ovvero è necessario
che nuove funzioni possano essere aggiunte o modificate a seconda delle necessità;
d) formato dei dati di input/output: in considerazione dell’orientamento generale del progetto
SI-TAL verso l’adozione del formato XML, lo strumento per la componente Dialoghi
Annotati deve supportare questo formato;
e) piattaforma: per aumentarne le potenzialità di utilizzo futuro, lo strumento dovrebbe essere
utilizzabile su tipi diversi di piattaforme.
f) disponibilità commerciale: gli strumenti devono essere liberamente utilizzabili;
La maggior parte degli strumenti esaminati nella fase di rassegna soddisfa solo in parte questi
requisiti. I motivi principali sono i seguenti:
•
i programmi esistenti sono spesso strettamente dipendenti da uno o più schemi di
annotazione particolari, contravvenendo così ai requisiti di adattabilità ed estendibilità. In tal
caso, uno strumento può essere usato esclusivamente in congiunzione con lo schema che è
fornito insieme al software, o per il quale il software è stato sviluppato, mentre è necessario
che schemi diversi da quello/i originariamente previsti possano essere importati E’ questo il
caso, ad esempio di DAT e NB;
•
i programmi esistenti spesso limitano il numero di livelli di annotazione possibili, mentre è
necessario che il numero ed il tipo di annotazioni linguistiche supportabili sia arbitrario, sia
per gli scopi immediati in SI-TAL, che per l’utilizzo futuro dello strumento;
E-300
•
le interfacce-utente sono cablate, per cui è difficoltoso cambiare la visualizzazione
dell’annotazione per fornire la rappresentazione più adeguata ed intuitiva delle annotazioni.
Idealmente, dovrebbe essere possibile adattare le modalità di visualizzazione a seconda del
tipo di annotazione. Inoltre, alcune modalità di visualizzazione non si prestano per le loro
caratteristiche alla rappresentazione di annotazioni complesse con molti tipi diversi di
elementi. Ad esempio, l’uso di colori distinti come in NB per contrassegnare i diversi
elementi di un testo annotato è improponibile per un’annotazione a più livelli e con più
elementi come quella sviluppata in SI-TAL.
•
la maggior parte degli strumenti esistenti non supporta gerarchie multiple di elementi. Questo
significa che non è possibile per questi strumenti implementare annotazioni inter-livello né
gestire annotazioni complesse su più livelli di descrizione linguistica
•
non forniscono la possibilità di permettere tipi diversi di azioni di editing in modo controllato
ma flessibile
•
non forniscono un linguaggio di ricerca; in altre parole, permettono soltanto di mostrare
all’annotatore un sottoinsieme dei dati, senza la possibilità di condurre ricerche che
coinvolgano più di un parametro.
•
sono spesso piattaforma-dipendenti
Di contro a questa situazione generale, lo strumento software sviluppato nell’ambito del
progetto MATE (vedi MATE, 1998) e descritto nel capitolo precedente, par. 1.3.9 sembra possedere
tutte le funzionalità necessarie per l’uso e l’applicazione in SI-TAL.
In considerazione della adeguatezza dello strumento ai requisiti e alle necessità imposte dal tema
Dialoghi in SI-TAL, pare estremamente opportuno e conveniente adottare MATE come strumento
software a supporto del corpus di dialoghi annotati. La sua disponibilità commerciale e la
flessibilità d’uso costituiscono un bonus aggiuntivo.
Le specifiche software che seguono consistono dunque in una descrizione dell’architettura e
delle funzionalità dello strumento MATE. Eventuali modifiche e integrazioni costituiranno parte
della fase di sviluppo e adattamento del software e saranno oggetto della Linea 1.3 del progetto.
2.2
Il Software di MATE
2.2.1 Introduzione
Il software sviluppato nell’ambito del progetto MATE, d’ora in poi denominato semplicemente
MATE, possiede caratteristiche estremamente interessanti per gli scopi del tema Dialoghi Annotati
in SI-TAL.
MATE si presenta come uno strumento specificamente orientato al trattamento del parlato, per il
quale fornisce supporto per la trascrizione e l’annotazione. Si tratta quindi di uno strumento
dedicato e non sviluppato in primo grado per lo scritto e successivamente adattato all’utilizzo su
corpora di parlato.
Le funzionalità di base di MATE includono la visualizzazione, la creazione e la modifica di
corpora, l’annotazione di corpora, l’aggiunta di nuovi livelli di annotazione e la modifica di quelli
E-301
esistenti, l’esecuzione di ricerche su tutto il corpus o su parte di esso, e la visualizzazione o l’output
dei risultati.
Sono incluse delle funzionalità per la visualizzazione flessibile dell’annotazione e per la sua
modifica, e un sistema complesso per la ricerca sul corpus.
MATE offre un approccio più flessibile della maggior parte degli strumenti di annotazione
esistenti, che sono in genere progettati per servire uno specifico schema di annotazione. Al
contrario, qualsiasi schema di annotazione può essere utilizzato con MATE.
MATE usa XML come linguaggio di markup delle annotazioni e come linguaggio di
rappresentazione interna del corpus annotato (vedi par. 3.3). Viene inoltre utilizzato un particolare
linguaggio di trasformazione mediante il quale è possibile definire degli editori specializzati e
ottimizzati per particolari compiti di annotazione, con annessi formati di visualizzazione adatti e
operazioni di editing customizzate.
La caratteristica principale di MATE è il suo alto grado di flessibilità e adattabilità: l’utente può
infatti non solo scegliere lo schema di annotazione che desidera implementare, ma anche il modo in
cui desidera che sia visualizzato il corpus annotato e le azioni di modifica e esplorazione che vuole
rendere disponibili. Non solo, quindi, è possibile implementare nuovi schemi di annotazione, ma le
stesse funzioni di visualizzazione e modifica possono essere definite dall’utente, in base e allo
schema di annotazione implementato e ai suoi bisogni particolari.
Questo costituisce un grosso vantaggio rispetto alla pratica corrente di riutilizzare degli strumenti
sviluppati per un determinato tipo di annotazione; infatti, anche se è possibile importare schemi di
annotazione diversi da quello originario, gli strumenti non sono mai abbastanza flessibili da
permettere la riconfigurazione delle funzioni di visualizzazione e di editing in modo tale che tutta e
solamente l’informazione rilevante per quel determinato compito di annotazione viene mostrata.
MATE offre questa flessibilità permettendo all’utente di scrivere i cosiddetti stylesheets, ovvero
delle regole (basate sul linguaggio di trasformazione XSLT, vedi sez. 3.5) che descrivono il modo
in cui il corpus deve essere presentato agli annotatori e quali azioni di editing devono essere
permesse. Lo strumento offre comunque un certo numero di stylesheets predefiniti, da usare con gli
schemi di annotazione di cui lo strumento è fornito.
MATE è scritto interamente in Java, con conseguenze positive sulla portabilità del sistema;
sfortunatamente, questo tipo di linguaggio di programmazione limita la velocità del sistema.
La modularità dello strumento e la chiara definizione delle strutture di dati e delle interfacce
(API) facilitano l’inclusione di componenti aggiuntive da parte degli utenti, la modifica e il
miglioramento degli strumenti ed il loro adattamento.
NOTA IMPORTANTE: la descrizione delle funzionalità di MATE si basa sulle specifiche
software del progetto e sull’uso della versione 0.03 dello strumento (17 Nov 99). Poiché lo
strumento è ancora in corso di sviluppo e affinamento, è possibile che alcune delle caratteristiche e
funzionalità finali dello strumento differiscano da quelle descritte in questa sede.
2.2.2
Approccio
Lo strumento software di MATE è specificamente orientato alla soluzione degli inconvenienti
menzionati nell’Introduzione, per mezzo di un approccio basato su XML (Extensible Markup
Language) e XSL (Extensible Stylesheet Language), permettendo così l’uso di un insieme qualsiasi
E-302
di files codificati in XML. A causa di questa genericità, lo strumento deve supportare un potente
linguaggio di ricerca per selezionare dei sottoinsiemi dell’annotazione. Un ulteriore elemento
necessario è un modo altrettanto generale per descrivere la proiezione dell’annotazione XML su
oggetti di visualizzazione (display objects), ovvero ciò che gli utenti vedono sullo schermo e come
possono interagire con questa rappresentazione.
La scelta di utilizzare un insieme di files XML connessi fra loro invece di un unico file XML è di
aiuto nella rappresentazione di gerarchie multiple in sovrapposizione, necessarie per annotazioni
multi-livello (vedi Carletta, in pubbl.). Il collegamento dalle annotazioni, in formato XML, a files
non XML come file audio o video avvengono mediante i nomi dei files audio e i marcatori
temporali contenuti in questi files.
L’architettura generale di MATE consiste in un database interno, un linguaggio ed un processore
di ricerca, un linguaggio ed un processore di stylesheet, un processore di visualizzazione, ed una
interfaccia utente. La rappresentazione interna (RI) rappresenta la struttura di un insieme di files
XML connessi mediante il meccanismo di hyperlinking. Sono disponibili delle funzioni per caricare
e rendere dei files XML dentro e fuori dal database. Il linguaggio ed il processore di ricerca sono
usati per selezionare parti della struttura del corpus. Il linguaggio di stylesheet descrive le
trasformazioni strutturali ed il processore di stylesheet implementa questo linguaggio. L’output di
una trasformazione applicata ad un documento può essere o un altro documento o un insieme di
display objects. Il processore di visualizzazione prende in input il display object che è output della
trasformazione di stylesheet e lo mostra all’utente. Questa visualizzazione strutturata è inserita in
una interfaccia utente che fornisce le funzionalità standard.
2.2.3 La rappresentazione interna dei corpora codificati in XML
La rappresentazione interna scelta è piuttosto semplice e standard. Ogni elemento XML ed ogni
stringa associata sono rappresentati come un oggetto Java. Ogni oggetto consiste di coppie di
proprietà con associato un valore. L’intera rappresentazione interna consiste quindi di triple
<nodo, proprietà, valore>. Le proprietà generalizzano gli attributi di un elemento XML
e la maggior parte di esse sono attributi con valori di tipo stringa, ma alcune hanno dei valori che
sono liste di altri nodi nella rappresentazione interna, per esempio le proprietà *figlio e *padre.
Come estensione allo standard Document Object Model (DOM; vedi W3C 1998), anche le DTD
sono rappresentate come oggetti. I tipi di nodi e le loro relazioni sono rappresentati in Figura 1. In
questa architettura, i files interi sono caricati in memoria ed elaborati come un gruppo unico.
L’alternativa possibile sarebbe quella di fornire un’interfaccia in cui i files più grandi sono letti ed
elaborati una sezione alla volta (dove il concetto di sezione sarebbe definito da una ricerca sulla
struttura XML del file).
2.2.3.1 Nodi “padre” multipli
Per permettere documenti multipli e gerarchie in sovrapposizione, necessarie per descrivere
parlanti multipli e livelli multipli di annotazione in corpora di dialoghi, è stata apportata
un’importante estensione al modello DOM della struttura XML, ovverosia che i nodi nella RI
possono avere padri multipli. Ogni nodo ha un padre privilegiato che è l’elemento-padre nello
stesso file del nodo. Tuttavia, un nodo può essere un figlio di altri elementi in files diversi. Per
esempio, un elemento <word> può essere figlio di un lemento <wordlist>, ma anche figlio di un
elemento <phrase>. Il collegamento aggiuntivo fra elementi è fatto per mezzo di uno speciale
attributo “href” degli elementi che utilizza un sottoinsieme della proposta XPOINTER (vedi W3C,
E-303
1999) per puntare ad elementi arbitrari nello stesso file o in files diversi (vedi Isard, McKelvie e
Thompson, 1998).
Il modello dei dati consiste dunque in un grafo orientato di nodi che hanno attributi con valori di
stringa ed un nodo-padre privilegiato. Il modello di dati di MATE è simile a quello proposto dal
progetto LORE (vedi Goldman, McHugh e Widom, 1999), con la differenza che MATE usa
attributi XPOINTER invece di ID, poiché questo permette di fare connessioni attraverso files senza
assumere un unico spazio-nome id attraverso tutti i files. Inoltre, MATE amalgama nella stessa
relazione elementi connessi da “href” e figli testuali.
2.2.3.2 Struttura riflessiva
Un aspetto importante del design di MATE è il suo carattere riflessivo, vale a dire il fatto che
tutta l’informazione relativa al sistema è mantenuta nella RI in un formato omogeneo. Per esempio,
tanto gli stylesheets (che descrivono l’aspetto dell’interfaccia utente) che i risultati delle ricerche
sono conservati nello stesso formato nella RI. Questo ha il vantaggio che, per esempio, sarebbe
possibile usare MATE per fornire un editore di stylesheet, oppure usare il linguaggio di ricerca per
trovare tutti i templates di stylesheet che corrispondono ad un elemento da visualizzare. Cosa ancora
più importante, poiché la struttura interna della RI è isomorfa con la struttura di un file XML, i
risultati di una ricerca possono essere restituiti come files XML, ed essere visualizzati all’utente in
un numero variabile di formati diversi a seconda dello stylesheet usato. In particolare, poiché i
risultati delle ricerche contengono dei puntatori agli elementi che soddisfano la ricerca, l’utente può
scegliere se visualizzare i risultati separatamente dal corpus oppure se evidenziare gli elementi nel
contesto del corpus.
2.2.4 Il linguaggio ed il processore di ricerca
L’annotazione linguistica dei dati non rappresenta uno scopo in sé, ma un investimento per usi
successivi dei dati. Lo scopo di una ricerca su un corpus annotato può essere non soltanto
l’identificazione di informazione esistente, ovvero codificata esplicitamente, ma anche di
informazione che può solo essere derivata per manipolazione. Di conseguenza, è utile offrire dei
concetti di ricerca che trascendono la struttura del corpus.
MATE dispone di un linguaggio ed un processore di ricerca che consentono di estrarre delle
ennuple di elementi che soddisfano un qualche requisito. Il linguaggio di ricerca, in XML, può
essere usato dall’utente o per estrarre parti di un corpus utilizzando la finestra apposita
nell’interfaccia-utente oppure per eseguire ricerche negli stylesheets, ad esempio per vedere come
gli elementi sono visualizzati.
Il linguaggio ed il processore di ricerca implementati in MATE costituiscono un’applicazione
che serve per interpretare delle espressioni di ricerca, per applicarle a corpora annotati e per
restituire delle informazioni su quegli elementi che soddisfano la ricerca. Questa funzionalità può
essere usata per scopi di ricerca, ma anche per l’annotazione automatica di corpora, purché
codificati in XML. L’applicazione, infatti, pur essendo concepita per essere usata all’interno di
MATE costituisce in principio un modulo autonomo. Il linguaggio di programmazione è Java.
2.2.4.1 Il linguaggio di ricerca
Nell’architettura XML supportata da MATE, un corpus annotato è costituito da un insieme di
documenti che a loro volta rappresentano un’annotazione a gerarchie multiple. Ogni documento
E-304
contiene degli elementi (per esempio parole, frasi, ecc.), ed è esso stesso un elemento. Ogni
elemento ha delle proprietà (attributi e valori) e può includere delle unità di ordine gerarchico
inferiore (per esempio, le frasi possono contenere dei sintagmi, i sintagmi delle parole, le parole dei
morfemi, ed i morfemi dei foni).
Un corpus dunque consiste di molteplici gerarchie di questo tipo. Per ogni elemento che contiene
delle sotto-unità può essere definita una struttura interna. E’ chiaro che il risultato di una ricerca non
dipende soltanto dall’espressività di un linguaggio di ricerca, ma anche dalla codifica e dalla
rappresentazione del corpus.
A questo riguardo, ci sono almeno due ordini di problemi. Il primo riguarda le strategie di
rappresentazione in XML. La scelta di cosa, in uno schema di annotazione, rappresentare come
elemento e cosa come attributo di quell’elemento è in gran parte oggetto di una scelta arbitraria: per
esempio, è possibile rappresentare la categoria morfosintattica di una parola o di un sintagma come
un attributo di elementi <parola> o <sintagma> oppure come un elemento indipendente a livello
di frase (ad esempio un elemento <sn>, <sv>, <sp> e così via). Se gli utenti non sono consapevoli
della struttura profonda del corpus annotato o delle strategie di rappresentazione di chi ha
implementato lo schema, la formulazione di ricerche può essere difficoltosa o inefficace. In secondo
luogo, descrivere i dialoghi o i testi in modo gerarchicamente strutturato può indurre ad effettuare
delle ricerche relative ad elementi “figlio”, “padre” e “nonno” di altri elementi. Di nuovo, il
successo di una ricerca di questo tipo dipende dalla teoria del livello linguistico che è stata usata ed
applicata al corpus e la sua rappresentazione nella macchina che esegue la ricerca.
Dunque, un linguaggio ed un processore di ricerca per dei corpora codificati in XML dipendono
dal modo in cui sono codificati i dati e dai meccanismi di inferenza posseduti dalla macchina che
legge quei dati.
Il linguaggio di ricerca Q4M è usato per identificare delle costellazioni di elementi. Le
costellazioni sono combinazioni di elementi con proprietà specifiche, coppie di elementi con
proprietà paragonabili, elementi in relazione gerarchica, e così via. Il termine è usato qui per fare
riferimento ad un concetto molto generale di output. In molti sistemi di ricerca è possibile cercare
parole o sequenze di parole che corrispondono a determinati criteri, e dunque l’output è una
sequenza di segmenti definiti di corpora. Nel caso di corpora con struttura ed annotazione multilivello, la situazione è diversa. Si esegue una ricerca sui dati annotati per trovare dei fenomeni
particolari che possono essere trovati sfruttando l’informazione registrata in un corpus. Un esempio
di ricerca di questo tipo è la seguente:
(1)
Trova tutti gli avverbi detti dal parlante P che includono l’accento H* e
seguono immediatamente una risposta prodotta dal parlante M
Di contro ad una ricerca di questo tipo, non ha senso fornire come risultato una sequenza di
elementi. Sembra invece più utile fornire informazione relativamente alla posizione in cui gli
elementi di queste costellazioni possono essere trovati, dal momento che non può essere
determinato che cosa l’utente vuole che sia visualizzato. Dipende dunque dall’utente selezionare le
visualizzazioni più appropriate delle posizioni che sono state trovate.
La figura 2.1 illustra la formulazione in Q4M della ricerca espressa in (1).
E-305
(1):
($P PROS)
$P si riferisce ad elementi <pros>
(2):
($s sent)
$s si riferisce ad elementi <sent>
(3):
($w word)
$w si riferisce ad elementi <word>
(4):
($s.type ~ “ans”) &&
il valore dell’attributo type di <sent> è “ans” AND
(5):
($s ] [ $w) &&
<sent> precede <word> AND
(6):
($w.pos ~ “adv”) &&
il valore dell’attributo pos di <word> è “adv” AND
(7):
($w.who ~ “P”) &&
il valore dell’attributo who di <word> è “P” AND
(8):
($w @ $p) &&
l’elemento <pros> occorre durante l’elemento <word> AND
(9):
($p.type ~ “H*”)
il valore dell’attributo type di <pros> è “H*”
Figura 2.1: un esempio di ricerca in Q4M
Un’espressione di ricerca ha una parte di definizione della variabile (1-3) ed una parte di restrizione
della ricerca (4-9). Espressioni singole possono essere combinate mediante operatori logici: AND
(&&), OR (||) e la negazione (!). A loro volta, delle combinazioni di espressioni semplici possono
essere raggruppate insieme mediante gerarchie di parentesi complesse. E’ possibile valutare e
confrontare i valori degli elementi, considerare le relazioni gerarchiche o sequenziali degli elementi,
e disporre di un operazioni fisse per gli elementi ed i valori (vedi Mengel e Heid, 1999). Questa
ricerca dimostra anche l’uso delle relazioni di tempo disponibili in Q4M, per esempio “@”
(relazione di inclusione).
Per una trattazione più approfondita del linguaggio di ricerca si rimanda alla sezione 3.8 di
Dybkjaer et al. 1998, http://www.ims.uni-stuttgart.de/projekte/mate/WB3/Q4M/001/docu/quer.html
2.2.4.2 Il processore di ricerca
Il processore di ricerca (Query Processor) riceve in input un insieme di documenti ed un
espressione di ricerca. Quando l’utente esegue una ricerca il processore di ricerca esegue una serie
di processi:
•
analizza la struttura dell’espressione di ricerca e produce una gerarchia di rappresentazioni e
risultati connessi al processo
•
valuta i risultati delle espressioni semplici accedendo alla rappresentazione interna di MATE
•
valuta i risultati delle negazioni e delle espressioni logiche
•
produce una rappresentazione dei risultati della ricerca nella rappresentazione interna; i
risultati possono essere resi come XML.
Il risultato di una ricerca è una lista di ennuple. Queste ennuple sono elementi XML con un
puntatore agli elementi che soddisfano l’espressione di ricerca. Di conseguenza, ogni risultato di
E-306
ricerca punta a tanti tipi di elementi quanti sono quelli invocato nell’espressione di ricerca. Nel caso
in cui la ricerca specifichi la prima parola di una frase, i risultati della lista di output hanno due
elementi ciascuno: uno con puntatore ad un elemento-parola, ed uno con puntatore ad un elementofrase.
L’output di una ricerca non è una copia di elementi o di documenti trovati ma un nuovo
documento XML che fornisce riferimento agli elementi trovati. Questo ha due vantaggi:
a) l’utente può ispezionare a piacere il contesto degli elementi che costituiscono il risultato,
senza essere costretto da un output predefinito
b) il nuovo documento XML può servire come nuova annotazione. Un linguaggio di ricerca
idealmente consentirà la derivazione di nuova struttura dall’annotazione esistente. Dal
momento che un’espressione di ricerca è una definizione di istanze di fenomeni specifici,
l’output delle ricerche in MATE fornisce l’annotazione delle occorrenze di questo fenomeno.
All’interno della ricerca di base, l’uso di Q4M ed il suo ambiente può migliorare la verifica di
ipotesi: le ipotesi possono essere definite come ricerche, testate contro l’output e confermate
oppure riformulate.
2.2.5 Il linguaggio e il processore di stylesheet
Il modo in cui i files XML sono visualizzati è controllato in MATE da un insieme di files definiti
stylesheets, che sono files XML scritti utilizzando una DTD particolare, che descrivono la
corrispondenza fra i files XML in un corpus ed il modo in cui questi saranno visualizzati
dall’interfaccia-utente di MATE. La DTD per gli stylesheet è sotto molti aspetti simile a XSLT ed è
usata per scopi in gran parte simili. L’uso degli stylesheets consente ad un utente di scegliere il
modo in cui desidera che un corpus annotato venga visualizzato, insieme alle azioni che si vogliono
consentire per intervenire su quel corpus. Questa flessibilità è di ausilio nell’esplorazione del corpus
e consente ad utenti esperti di scrivere degli editori di annotazione specifici per scopi di annotazione
particolari. MATE fornisce un insieme di stylesheet di base per alcuni livelli di annotazione
(prosodia, morfosintassi, coreferenza, atti pragmatici e problemi di comunicazione), di modo che lo
strumento è immediatamente utilizzabile in congiunzione con i files annotati forniti dal progetto13 .
La scrittura ex-novo di stylesheets è necessaria soltanto nei casi seguenti: quando si introducono
nuovi livelli di annotazione, diversi da quelli forniti con MATE; quando si modifichi la
rappresentazione degli schemi di annotazione implementati; quando si voglia modificare la
visualizzazione dell’annotazione.
La generale flessibilità è assicurata assumendo (secondo un modo standard nel design di
interfacce utente) che l’aspetto visivo di un documento visualizzato possa essere decomposto in
oggetti di visualizzazione (display objects, vedi sez. 3.7), che formano una struttura gerarchica.
Questa struttura di visualizzazione può essere descritta come un documento quasi-XML; una DTD è
disponibile per un insieme di display objects.
13
Per ulteriori riferimenti e per un tutorial sugli stylesheets vedi la pagina web relativa al software
<http://www.cogsci.ed.ac.uk/~dmck/MateCode/>,
<http://www.cogsci.ed.ac.uk/~dmck/MateCode/style/stylesheet-tutorial.html>
E-307
2.2.5.1 Il processore di stylesheet
Quando il processore di stylesheet è eseguito, un documento o una serie di documenti sono
elaborati insieme ad uno stylesheet scritto nel Mate Stylesheet Language (MSL), descritto
sommariamente nella sezione seguente.
Il processore di stylesheet è normalmente eseguito dall’interno di MATE, e restituisce una
struttura di visualizzazione come quella descritta sopra, che è a sua volta elaborata dal processore di
visualizzazione (Display Processor) per mostrare qualcosa all’utente. Il processore può anche
essere eseguito in modalità stand-alone, nel qual caso il documento in input può essere trasformato
in una arbitraria struttura di documento in output (per esempio HTML).
2.2.5.2 Il linguaggio di stylesheet
Per proiettare la struttura logica di un documento su una diversa struttura, è stato definito un
linguaggio dichiarativo di trasformazione funzionale. Lo standard emergente in quest’area è XSLT
(vedi Clark, 1999), ma poiché si tratta di un linguaggio ancora in definizione e non possiede ancora
le funzionalità necessarie, è stato deciso di implementare un linguaggio di trasformazione, MSL,
leggermente diverso e più semplice per gli scopi immediati. MSL usa il linguaggio di ricerca
definito sopra (vedi sez. 2.2.4.1), ma per tutti gli altri aspetti è simile a XSLT. Ogni stylesheet
consiste di uno o più templates; ogni template contiene una ricerca (query) rispetto alla quale
vengono confrontati gli elementi nel documento in input, ed un insieme di istruzioni da seguire nel
caso venga trovata una corrispondenza.
La figura 2.2 mostra un esempio di stylesheet che produce i display objects di MATE. In questo
caso, vengono usati tre templates per creare dei display objects che faranno sì che i nomi siano
visualizzati in rosso, mentre altri tipi di parole in nero. Ogni elemento nel file XML sarà confrontato
a sua volta con le queries nei templates fino a che non venga trovata una corrispondenza, e quindi il
corpo del template sarà elaborato. L’istruzione <apply-templates/> fa sì che i children
dell’elemento vengano elaborati a loro volta.
<msl:stylesheet>
<msl:template match=”($a sentence)”>
<VerticalList>
<msl:apply-templates/>
</VerticalList>
</msl:template>
<msl:template match=”($a noun)”>
<TextBox colour=”Red”>
</TextBox>
</msl:template>
<msl:template match=”($a *)”>
<TextBox colour=”Black”>
</TextBox>
</msl:templates>
</msl:stylesheet>
Fig. 2.2: Un esempio di stylesheet
E-308
2.2.5.3 Azioni
Per fare sì che un utente interagisca con le visualizzazioni create mediante i display objects di
MATE, ad ogni oggetto sono state aggiunte alcune proprietà di azione. Queste definiscono, per
esempio, cosa succede se un utente fa doppio clic su un oggetto nella visualizzazione. Queste azioni
di visualizzazione sono definite in uno stylesheet con uso di funzioni, che assomigliano ai
templates. Quando un elemento corrisponde ad un template, una delle istruzioni di esecuzione in un
template chiama una funzione, che definisce le azioni per quell’elemento. In tal modo, le funzioni
che sono usate per molti elementi diversi devono essere definiti una volta soltanto. Per esempio, nel
file XML, si potrebbe voler visualizzare soltanto il testo, ma volere che la categoria morfosintattica
delle parole appaia quando l’utente fa doppio clic su una parola.
2.2.5.3.1
Estensioni di XSLT
Per definire delle interfacce di editing è necessario avere la capacità di dare all’utente delle liste
di nomi di elementi consentiti, nomi di attributi e valori possibili degli attributi. Questa
informazione è definita (almeno parzialmente) nella DTD di uno schema di annotazione. E’ dunque
necessario poter fare riferimento a questa informazione negli stylesheets, per esempio per creare un
menu degli attributi possibili. In MATE questo è stato fatto aggiungendo dei nuovi comandi al
linguaggio di stylesheet che consentono l’iterazione sulle definizioni di elementi e attributi nella
DTD. Dal momento che l’accesso alla DTD non è una caratteristica supportata da XSLT, questo è
un problema che deve essere considerato dal gruppo di lavoro XSL.
2.2.5.4 Connettere elementi IR agli oggetti di visualizzazione
Poiché si vuole che le azioni sullo schermo dell’utente abbiano effetto sul corpus sottostante,
ovvero, poiché uno degli scopi di MATE è quello di essere di supporto all’annotazione, è necessario
mantenere dei puntatori all’indietro dai display objects alle parti del corpus a cui questi fanno
riferimento. Poiché ogni display object è stato creato mediante l’istanziazione di un qualche
template nello stylesheet, che corrisponde ad un elemento nel documento in input, questo concetto
di puntatore all’indietro può essere definito in modo consistente.
2.2.6 L’interfaccia utente
L’accesso alle funzionalità di MATE avviene mediante l’interfaccia-utente, che consiste di
finestre, menu e alberi di cartelle standard usati per mantenere traccia, per esempio, dei files e delle
cartelle del corpus.
L’interfaccia utente è basata su classi Swing in Java. La maggior parte delle finestre
dell’interfaccia hanno menù, bottoni e barre a scorrimento che sono oggetti Swing standard. Questi
oggetti sono controllati nei modi tipici familiari ad utenti normalmente esperti. Le varie finestre e le
funzioni ad esse associate sono descritte nel resto di questa sezione.
All’avvio di MATE appaiono due finestre: la finestra di controllo (Main Window) e la finestra
che mostra il contenuto del corpus (Projects Window).
La finestra di controllo (Main window) è la finestra principale nella quale tutte le finestre dei
diversi strumenti possono essere aperte. Dal menù “File” è possibile aprire una o più finestre di
cartelle del corpus. Le finestre di cartelle del corpus servono per l’esplorazione, l’aggiunta o la
E-309
modifica dei files del corpus. La struttura dei files è visualizzata in un albero utilizzando la classe
Java Jtree.
2.2.6.1 La finestra di controllo
Questa finestra consente il funzionamento complessivo di MATE. Dei messaggi di stato
compaiono nell’area bianca sotto il menù (Information area). Dalla barra di menù la finestra di
controllo fornisce accesso a tutte le funzionalità di base dello strumento:
File
•
•
•
•
•
•
•
•
•
Open corpus folder
Open workspace
Save workspace
List of open projects
List of open windows
Minimize all windows
Clear information area
Preferences
Exit
Tools
•
•
•
•
•
•
•
•
Coding modules
Import/Export
Conversion
Visualization
Query window
Audio player
Picture viewer
Video viewer
Help
•
•
Manual
About the MATE workbench
File
Open Corpus Folder: la finestra “Corpus Folder” si apre automaticamente all’avvio ma può
ovviamente essere chiusa in ogni momento. L’utente può riaprirla utilizzando questo comando.
Open workspace, save workspace: Un “workspace” è ciò che l’utente ha sullo schermo ad un
dato momento in termini di finestre aperte. Un workspace salvato può essere riaperto in un secondo
momento.
List of open projects, List of open windows: mantiene una lista dei progetti e delle finestre aperte.
Minimize all windows: questo comando serve a ridurre tutte le finestre contemporaneamente.
Clear information area: cancella le informazioni visualizzate nell’area di informazione.
E-310
Preferences: consente all’utente di attivare o disattivare determinati strumenti. Se i tool tips sono
attivati, ogni volta che il mouse si sovrappone ad un’icona viene visualizzata una breve descrizione.
Dalle preferenze l’utente può aggiungere i propri strumenti agli strumenti già forniti da MATE.
Exit: spenge lo strumento. Lo stesso effetto è raggiunto chiudendo la finestra di controllo.
Tools
Il menù Tools consente l’accesso agli strumenti centrali di MATE. Quando uno strumento viene
selezionato, appare una nuova finestra di accesso alle funzionalità dello strumento selezionato. Il
menù Tools nella finestra di controllo è estendibile ed è costruito automaticamente dall’insieme di
strumenti disponibili. Questa caratteristica è implementata facendo di ogni strumento un “Java
Bean”.
Coding modules: Quando un utente accede a MATE per compiere l’annotazione, per prima cosa
seleziona un “coding module”. Il coding module contiene una descrizione dello schema di codifica,
e informazione sul modo in cui la codifica deve essere eseguita. MATE fornisce un insieme di
moduli predefiniti, che sono organizzati in una cartella che contiene una cartella per ognuno dei
livelli di annotazione, inclusa la trascrizione. Ognuna di queste cartelle contiene uno o più moduli. I
moduli di codifica sono centrali all’annotazione supportata dallo strumento. Un modulo definisce il
markup formale, la cui struttura è specificata dall’utente mediante un semplice dialogo di scelta ed è
implementata in una DTD. Inoltre, un modulo definisce la semantica di markup, i riferimenti ad
altri moduli ed una o più procedure di codifica, il contenuto dell’intestazione (header) di una
codifica, l’insieme delle etichette e gli attributi delle etichette. I moduli di codifica sono
rappresentati in una DTD in formato XML. i moduli di codifica esistenti possono essere selezionati
semplicemente selezionando la procedura di codifica da applicare (vedi la sezione relativa alla
Corpus Folder Window). Gli utenti possono tuttavia voler aggiungere delle procedure di codifica ai
moduli esistenti, definire nuovi moduli o semplicemente prendere visione dei moduli esistenti. i
moduli di codifica esistenti non possono essere cancellati e l’unico cambiamento consentito consiste
nell’aggiunta di nuove procedure di codifica.
Per aggiungere una nuova procedura di codifica è sufficiente selezionare “New Coding
Procedure” dal menù File; all’utente viene quindi richiesto di specificare a quale modulo di codifica
la nuova procedura va ad aggiungersi e quale nome viene scelto. Dopo di ciò l’utente può iniziare a
scrivere la nuova procedura.
Definizione di un nuovo modulo di codifica: questa azione è possibile selezionando il comando
“New Coding Module” dal menù File della finestra dei Coding Modules; all’utente viene quindi
richiesto di specificare in quale cartella collocare il nuovo modulo ed il nome voluto. Dopo di ciò si
richiede all’utente di riempire le diverse parti di un modulo di codifica: nome, descrizione, elementi
ed attributi formali di markup, esempi, una semantica informale, ed un insieme di procedure di
codifica. In particolare, compare una finestra di dialogo nella quale vengono richiesti all’utente gli
elementi formali di markup e gli attributi in un modo che permette all’utente di concentrarsi sui
contenuti, ignorando le specificità tecniche e di sintassi, che restano nascoste all’utente.
Visualizzazione di un modulo di codifica: un modulo di codifica può essere aperto in modalità di
sola lettura mediante il comando “Open Coding Module” dal menù File della finestra dei Coding
Modules. L’utente può scegliere di vedere la DTD oppure una sorta di pre-view di stampa del
modulo di codifica. La versione “pretty-print” esclude tutta la TEI, ed i contenuti corrispondono ai
campi che l’utente deve riempire durante il dialogo eseguito per definire il nuovo modulo di
codifica.
E-311
Import/Export: Importare un file significa sostanzialmente che il file può essere aperto da MATE.
Tuttavia, se il file da aprire non è annotato secondo lo standard di MATE, può essere necessario
convertirlo dal suo formato originario nello standard di MATE. La conversione consente all’utente di
sfruttare le funzionalità offerte da MATE. Questa procedura è possibile mediante selezione
dell’opzione “Conversion to Mate Standard”. L’esportazione è in sostanza un’operazione di “Save
as”. Saranno inclusi uno o due formati di esportazione. Una maggiore flessibilità può essere
ottenuta accoppiando la funzionalità di export con quella di estrazione dell’informazione (vedi
sotto), di modo che un utente può esportare in un file, ovvero salvare, qualsiasi informazione
estratta.
Visualization: Visualizzazioni diverse possono essere necessarie per scopi diversi. MATE
consente all’utente di visualizzare un’annotazione verticalmente o orizzontalmente. Tuttavia, per
ognuna di queste due scelte esistono molti modi diversi di presentare dei contenuti ad un utente.
L’idea di base è di permettere all’utente di scegliere tra un insieme di elementi diversi, come tempo,
parlanti ed enunciazioni, tra i quali è possibile scegliere cosa vedere. La visualizzazione può inoltre
essere strettamente connessa all’Information Extraction, perché la possibilità di di estrarre certe
informazioni da una codifica permette all’utente di definire cosa visualizzare.
Query window: La finestra di ricerca permette all’utente di estrarre motli tipi di informazione dai
corpora annotati. Questa funzionalità si basa sul linguaggio di ricerca descritto in par. 2.2.6.5, dove
le funzionalità di questo componente sono descritte in maggior dettaglio.
Audio player: questa opzione attiva lo strumento per l’ascolto di file audio. MATE incorpora lo
strumento AUDIOTOOL. Per maggiori dettagli si veda la sez. 2.2.6.3.
Picture Viewer, Video Viewer: queste due funzionalità non sono attualmente implementate nella
versione corrente di MATE. Esse sono state previste nell’ottica di integrare degli strumenti per la
visualizzazione di immagini e video.
Help
Manual: il menù Help fornisce accesso ad un manuale in linea, i cui contenuti sono visualizzati
in una finestra che si apre automaticamente quando l’utente sceglie questa funzione. I contenuti
permettono l’accesso al resto del manuale mediante connessioni ipertestuali.
About the Mate workbench: fornisce una breve descrizione del sistema.
2.2.6.2 La finestra “Projects”
Questa finestra è la finestra centrale perché contiene i corpora disponibili a MATE, incluse le
annotazioni. Il menù accessibile da questa finestra è descritto qui sotto:
File
•
•
•
•
•
New Project
Run project
New folder
Remove empty folder
Close window
New project: l’utente può creare una nuova annotazione selezionando questa opzione dal menù
File. Un progetto è un insieme di files relativi ad uno stesso livello di annotazione, e corredati di
E-312
uno stylesheet che ne determina la visualizzazione. La selezione apre una finestra di dialogo in cui
viene richiesto all’utente di inserire un nome per la nuova codifica, di selezionare una cartella di
corpus in cui collocarla e di selezionare una procedura di codifica.
Quando l’utente preme OK, la nuova codifica riceve automaticamente un suffisso corrispondente
al livello per il quale è stata scelta una procedura di codifica. Per esempio, le annotazioni di
coreferenza riceveranno il suffisso .coref. La nuova annotazione appare in una finestra separata.
Run project: quando l’utente preme il bottone “run” dopo aver selezionato un progetto oppure
seleziona “run project” dal menù, la codifica selezionata appare in una finestra separata.
New folder: per creare e nominare una nuova cartella di corpus.
Remove empty folder: per cancellare cartelle vuote
Close window: chiude la finestra e ritorna al menù principale.
2.2.6.3 La finestra di codifica
Mediante la finestra di codifica (Coding window) si accede alle funzionalità di annotazione e di
visualizzazione di MATE. L’utente può accedere alla finestra di codifica selezionando un file di
progetto (ovvero un file con estensione .mp) dalla finestra di esplorazione del corpus e premendo il
bottone “run” nella barra che si trova sulla parte superiore della finestra. Mediante questa azione i
files di annotazione presenti nel progetto vengono caricati e visualizzati nella finestra di codifica
secondo lo stile (stylesheet) definito nel progetto. Mate fornisce quattro progetti predefiniti, che si
trovano nella directory Projects rispettivamente nelle directories “ComProbs”, “MorphoSyntax”,
“VerbMobil” e “MapTask”.
Il menù accessibile da questa finestra è descritto qui sotto:
File
•
•
•
•
Edit
•
•
•
•
•
•
•
•
Insert file in coding
Save coding
Save coding as
Close coding
Undo
Redo
Cut
Copy
Paste
Find
Replace
Bookmarks
Tools
• Audio player
• Query window
E-313
Help
•
•
Description of this display
Show stylesheet
File
Insert file in coding: in alcuni casi l’utente può avere un qualche tipo di trascrizione preliminare
che vuole usare come punto di partenza per l’annotazione. Questo comando consente all’utente di
selezionare un file ed inserirlo nel corpo di una codifica senza dover eseguire una nuova
trascrizione dall’inizio.
Save coding: salva l’annotazione eseguita
Save coding as: salva un file con un nuovo nome.
Close coding: chiude l’attività di annotazione di un file. Prima della chiusura compare un
messaggio nel quale si chiede all’utente se desidera salvare l’annotazione.
Edit
Bookmarks: un bookmark è un segnalibro che può essere aggiunto dall’utente alla codifica, ad
esempio per indicare il punto in cui l’annotatore è arrivato l’ultima volta in cui ha aperto un certo
file per compiere l’annotazione. Più segnalibri possono essere inseriti in una stessa codifica.
Quando il comando “Bookmarks” viene selezionato, all’utente viene presentata una lista di
segnalibri esistenti nell’annotazione in questione più la possibilità di inserirne di nuovi o di
cancellarne di già esistenti. Un segnalibro viene inserito nella posizione del cursore nel corpo della
finestra di codifica. La cancellazione di un segnalibro avviene selezionando un segnalibro esistente
dalla lista e selezionando poi “Delete”.
Le altre funzionalità sono funzionalità standard di editing.
Tools
Audio player: permette di ascoltare il file audio connesso al file sul quale si sta effettuando
l’annotazione
Query window: apre la finestra di ricerca (vedi sez. 2.2.6.6).
Help
Description of this display: fornisce informazioni sulla visualizzazione in uso.
Show stylesheet: mostra in una finestra separata lo stylesheet definito per il progetto.
2.2.6.4 Audio Tool
AUDIOTOOL è un programma per ascoltare dei files audio, per visualizzare la forma d’onda
corrispondente e per aggiungere segmentazione etichettata. La forma d’onda di un file può essere
visualizzata a risoluzione variabile e la curva di frequenza fondamentale (f0) può essere
visualizzata, ma soltanto se è stata precedentemente calcolata e fornita al sistema. E’ possibile
selezionare parti di un file che possono poi essere ascoltate separatamente ed è possibile segmentare
il file in unità. La trascrizione e l’annotazione prosodica possono essere eseguite usando questa
E-314
finestra. E’ anche possibile ascoltare un segmento di parlato quando uno o più elementi sono
selezionati nel testo (questo è specificato nello stylesheet).
2.2.6.4.1
Caricamento di files audio
Un file audio deve essere posizionato in uno dei files “.mp” nella directory “Corpora”, che è una
subdirectory della directory di avvio dello strumento. Il contenuto di un file “.mp” ha l’aspetto
seguente:
MATE Project file
Corpora/vm/vm1-stylesheet.msl,MATE style sheet
Corpora/vm/e032ach_DLG.xml,MATE file
Corpora/vm/e032ach_DNC_DAS.xml,MATE file
Corpora/vm/e032ach_DNC_KAN.xml,MATE file
Corpora/vm/e032ach_DNC_ORT.xml,MATE file
Corpora/vm/e032ach_DNC_TR2.xml,MATE file
Corpora/vm/e032ach_RGM_DAS.xml,MATE file
Corpora/vm/e032ach_RGM_KAN.xml,MATE file
Corpora/vm/e032ach_RGM_ORT.xml,MATE file
Corpora/vm/e032ach_RGM_TR2.xml,MATE file
../at/m221d005.a16.au,Audio file
2.2.6.4.2
Apertura di Audio Tool da MATE
Una volta selezionato un file “.mp” mediante doppio clic si apre una finestra di codifica. Dal
menù TOOLS si seleziona Audio player: questo comando lancia l’applicazione AUDIOTOOL.
2.2.6.4.3
La finestra Audio Tool
Una volta lanciato il programma, si apre una finestra, illustrata nella figura qui sotto:
E-315
I componenti della finestra sono i seguenti:
1) righello che viene posizionato alla posizione di inizio di un segmento di file audio e che si
muove verso la posizione “end” quando viene premuto il bottone play
2) delimitatore di inizio di un segmento di file audio
3) delimitatore di fine di un segmento di file audio
4) visualizzazione della forma d’onda
5) barra di scorrimento orizzontale della visualizzazione della forma d’onda
6) barra di scorrimento verticale della visualizzazione della forma d’onda
7) area di visualizzazione della posizione corrente del cursore nella visualizzazione della forma
d’onda misurata in secondi
8) area di visualizzazione del valore del delimitatore di inizio, misurato in secondi
9) area di visualizzazione del valore del delimitatore di fine, misurato in secondi
10) lista di selezione dei fattori di scala per lo zooming orizzontale della forma d’onda
11) lista di selezione dei fattori di scala per lo zooming verticale della forma d’onda
12) bottone per etichettare un segmento selezionato nella visualizzazione della forma d’onda
13) bottone per deselezionare un segmento nella visualizzazione della forma d’onda
14) bottone per ascoltare un file audio
E-316
15) bottone per l’ascolto continuo di un file audio
16) bottone per interrompere l’ascolto di un file audio
17) bottone per salvare la segmentazione di un file audio
18) bottone per chiudere la finestra di AUDIOTOOL
Gli altri strumenti a cui è possibile accedere dall’interfaccia-utente sono descritti nelle sezioni
seguenti.
2.2.6.5 L’editore di moduli di codifica
L’idea alla base dell’editore di moduli di codifica è di fornire agli utenti senza conoscenze di
XML uno strumento per creare e modificare delle descrizioni strutturare dei loro schemi di
annotazione. L’editore ha una interfaccia utente grafica, che assomiglia alle interfacce-utente
comunemente diffuse. Contiene delle funzioni come “copy and paste” e “drag and drop” che
consentono di riutilizzare facilmente parti di un coding module in un altro. La sezione del coding
module relativa alla dichiarazione di markup è rappresentata in forma d’albero, e l’utente aggiunge
entità, elementi, attributi e commenti all’albero per costruire la dichiarazione di markup. Per ogni
nodo è specificato il nome, tipo, ecc. L’albero può essere analizzato per creare un documento di
testo relativo al coding module. Il nodo di dichiarazioe di markup e i suoi sotto-nodi contengono
informazione che può essere usata per creare una DTD in XML che viene usata internamente da
MATE.
2.2.6.6 L’editore della formulazione di ricerche
Allo scopo di fornire un modo semplice per formulare le espressioni di ricerca (descritte nella
sez. 2.3.4.1), MATE dispone di un’interfaccia di ricerca interattiva. L’utente deve per prima cosa
selezionare i documenti su cui effettuare la ricerca. In un secondo momento l’utente può scegliere i
tipi di elementi da includere nell’espressione di ricerca tra quelli disponibili ei documenti
selezionati. Infine può essere costruita l’espressione di ricerca. I bottoni dell’interfaccia diventano
attivi al momento appropriato, e vengono visualizzati gli attributi che appartengono ai tipi di
elementi selezionati. E’ anche possibile definire combinazioni logiche e parentesizzazioni di
semplici espressioni di ricerca.
Per effettuare una ricerca mediante l’editor, per prima cosa si apre un documento nella finestra
del corpus:
E-317
Un messaggio di conferma compare nella finestra di controllo per confermare che il documento è
stato caricato:
A questo punto di seleziona la scelta “Information extraction” dal menù TOOL della
finestra principale:
E-318
In questo modo si ottiene la finestra di ricerca:
In questo ambiente è possibile specificare la stringa di ricerca, sia interattivamente che
inserendola a mano.
Come spiegato prima, una stringa di ricerca consiste in una parte di dichiarazione delle variabili
e in una parte di affermazione. Per prima cosa, dunque, devono essere definite le variabili. Come si
può vedere nell’immagine precedente, nella prima riga del pannello si trova un campo di testo dove
viene assegnato il nome della variabile, ed una barra di selezione, che contiene tutti i nomi degli
elementi XML che sono stati precedentemente letti nella RI. Dopo la selezione, l’utente deve
premere il bottone Add assignment per aggiungere questa parte dell’espressione alla stringa
nella finestra di ricerca. Tutti gli altri bottoni sono disattivati.
A questo punto l’utente ha una serie di opzioni: può specificare un’altra variabile (nel modo
descritto prima) oppure selezionare uno dei tipi di espressione. Nell’illustrazione precedente, sono
stati già assegnati due nomi di variabili (mov e ims). Per la specificazione dell’espressione questo
significa che questi nomi di variabile saranno visualizzati sulle barre di selezione degli elementi. In
questo modo, ogni volta che viene assegnato un nuovo nome di variabile, le barre di selezione degli
elementi vengono aggiornate.
La stessa procedura è valida per gli attributi: se un certo nome di variabile è selezionato (mov
nell’esempio illustrato in figura), gli attributi che appartengono a questo elemento (id nel caso in
esame) sono inseriti nella barra di selezione, e vengono aggiornati a seconda della selezione del
nome della variabile. E’ possibile attivare anche i simboli di negazione (!).
Dopo che un’espressione è stata aggiunta, premendo il bottone Add expression, appare la
finestra seguente:
E-319
Di nuovo, la stringa di ricerca viene aggiornata ma le scelte diminuiscono dopo aver aggiunto
un’espressione per cui a questo punto è possibile o eseguire la ricerca (Execute query), o
annullarla (Reset), assegnare una nuova variabile o aggiungere un operatore logico (Add
logical operator).
Una volta che la stringa di ricerca è stata completamente specificata, è possibile eseguire la
ricerca; la finestra visualizzerà la cartella dei risultati.
Per il momento è visualizzato soltanto l’output XML. L’output potrà essere analizzato per mezzo
di un processore di stylesheet e gli elementi saranno visualizzati nel loro contesto. In questo foglio è
anche possibile vedere i (sotto)risultati di sotto-espressioni della ricerca facendo doppio clic su uno
dei bottoni in basso dove per ogni sotto-espressione della ricerca è disponibile un bottone.
Premendo uno di questi verrà visualizzato il risultato corrispondente a quella particolare
espressione.
E-320
In questa schermata è mostrato il risultato corrispondente alla sotto-espressione ($mov.label
~ "check").
Nel foglio STATISTICS è possibile visualizzare il numero di risultati per ricerca eseguita
Se in una sessione di lavoro è stata fatta più di una ricerca, selezionando il foglio HISTORY è
possibile tornare a ricerche precedenti facendo doppio clic su una delle linee.
E-321
In questo modo si ritorna alla schermata di QUERY, dove è possibile modificare la ricerca
selezionata o provare nuove espressioni di ricerca.
2.2.6.7 Strumenti di conversione
Un ulteriore esempio di strumento integrato in MATE è lo strumento di conversione usato per
convertire uno o più files da un formato ad un altro. MATE ha due strumenti di conversione
preinstallati: PAR2XML e XLABEL2XML.
BAS PARTITUR 2 XML è uno strumento di conversione che converte i files dal formato BAS
Partitur (versione 1.2.4) ad XML (versione 1.0) 14 .
Xlabel2xml prende in input uno o più files nel formato Entropic Xwaves Xlabel e rende in
output un file XML per ogni file in input. Per default, viene anche resa una DTD a cui si
conformano i files, e crea degli elementi “word”. Questo strumento è studiato per essere usato da
utenti che possiedono dei files di trascrizione in formato Xlabel e vogliono convertirli in XML per
usarli con MATE 15 .
Altri convertitori possono essere aggiunti dall’utente facendo un programma Java che estende la
classe “ConversionTool” di MATE, e mettendo il file della classe compilata nella directory di
conversione. Quando MATE viene riavviato, controlla i files nella directory e li aggiunge al menu
nella finestra degli strumenti di conversione.
14
Maggiori
informazioni
su
Par2XML
http://www.dfki.de/mate/implementation/par2xmldoc.html
sono
disponibili
all’indirizzo
Maggiori
informazioni
su
Xlabel2xml
sono
http://www.cogsci.ed.ac.uk/~dmck/MateCode/conversion/xlabel_user_doc.html
disponibili
all’indirizzo
15
E-322
2.2.7 Gli oggetti di visualizzazione
Gli oggetti di visualizzazione o display objects di MATE sono usati per creare delle
visualizzazioni per la codifica dei corpora o per mostrare i risultati delle ricerche. Ogni display
object ha un insieme di proprietà, che può essere fissato o direttamente in un programma Java, o
eseguendo il Processore di Stylesheet (vedi sez. 2.3.5.1), con uno stylesheet di MATE e uno o più
files XML come input. Tre sono i tipi di display objects: il TextBox, il VerticalList, e
HorizontalList.
2.2.7.1 TextBox
L’oggetto TextBox è usato per visualizzare il testo in modi diversi; controlla le proprietà relative
al colore, lo stile (grassetto, corsivo, normale), la dimensione del testo, il colore di sfondo, il tipo di
carattere, ecc. E’ inoltre possibile scegliere se il testo in un TextBox possa essere modificabile e/o
selezionabile.
2.2.7.2 Vertical List e Horizontal List
I display objects VerticalList e HorizontalList sono dei controllori di display objects, ovvero
sono usati per controllare altri controllori oppure oggetti semplici, come il TextBox. VerticalList e
HorizontalList controllano, rispettivamente, una colonna e una fila di oggetti. Per costruire una
visualizzazione complessa (per esempio, una finestra di codifica), è necessaria una struttura
gerarchica che contenga dei controllori di display objects all’interno di altri display objects. I
controllori di display objects hanno delle proprietà relative al colore, alla spaziatura
orizzontale/verticale fra gli oggetti, alle strategie di scrolling (orizzontale, verticale, entrambi o
nessuno), e alle strategie di posizionamento dei children (se la posizione di un child di un oggetto è
fissa, allineata ad una linea temporale oppure cambiata automaticamente a seconda delle necessità).
L’informazione mostrata nei campi può essere presa da vari files XML sotto il controllo di uno
stylesheet. Visualizzazioni più avanzate richiedono più livelli di display objects. E’ anche possibile
mostrare la stessa informazione in due finestre diverse costruite con stylesheets diversi.
2.2.8 Conclusioni
Riassumiamo brevemente ed evidenziamo alcuni concetti portanti di MATE:
•
a causa della somiglianza fra annotazioni del parlato con altri tipi di annotazione, lo sviluppo
degli strumenti di annotazione del parlato dovrebbe collocarsi all’interno del più ampio
contesto degli editori e dei visualizzatori di XML.
•
un linguaggio di trasformazione di alto livello, che consenta un legame flessibile fra strutture
logiche e strutture di visualizzazione è necessario per avere flessibilità di visualizzazione e
facile definizione di editori specializzati ad un compito di annotazione particolare
•
il design del sistema dovrebbe essere riflessivo: le definizioni dell’interfaccia-utente, i
risultati delle ricerche, e le descrizioni del corpus dovrebbero essere omogenei ai corpora di
annotazione stessi
E-323
•
per trattare la complessità dell’annotazione linguistica e un design di sistema riflessivo è
necessario estendere il modello dei dati da un modello ad albero verso grafi generici. I
linguaggi di ricerca e di trasformazione dovrebbero riflettere questo modello di dati.
•
il processore di visualizzazione dovrebbe essere estendibile, di modo che sia facile
aggiungere nuove opzioni di visualizzazione, per esempio aggiungere modi per visualizzare
alberi/grafi.
2.2.9 Appendice
MATE è uno strumento sviluppato nell’ambito del progetto europeo LE-MATE (Telematics
Project LE4 – 8370); al momento è stata rilasciata una versione alpha, non ancora pubblicamente
accessibile. La versione definitiva sarà rilasciata a Febbraio 2000, e sarà pubblicamente disponibile
per scopi di ricerca.
E-324
Riferimenti bibliografici
Abney, S. 1991, “Parsing by Chunks”, in D. Bouchard & K. Lefel (a cura di), Views on Phrase
Structure, Berlin: Kluwer Academic Publishers.
Abney.
S.
1996,
Chunk
Stylebook,
Manoscritto,
Università
<http://www.sfs.nphil.uni-tuebingen.de/~abney/96i.ps.gz>.
di
Tübingen,
Ahrenberg, L., Dahlbäck, N. & A. Jönsson 1995, “Coding Schemes for Natural Language
Dialogue”, in Working Notes from AAAI Spring Symposium, Stanford.
Aleksandersson, J., Buschbeck-Wolf, B., Fujinami, T., Maier, E., Reithinger, N., Schmitz, B. & M.
Siegel 1997, Dialogue Acts in VERBMOBIL-2, REPORT 204, Mai 1997. DFKI GbmH
Saarbrücken, Universität Stuttgart, Technischen Universität Berlin, Universität des Saarlandes,
<http://www.dfki.de/cgi-bin/verbmobil/htbin/doc-access.cgi>.
Allen, J. & M. Core 1997, Draft of DAMSL: Dialog Act Markup in Several Layers,
<http://www.cs.rochester.edu:80/research/trains/annotation>.
Allwood, J., Ahlsén, E., Nivre, J. & S. Larsson 1997, Own Communication Management:
Kodningsmanualt, Göteborg University, Department of Linguistics.
Alshawi, H. (a cura di) 1992, The Core Language Engine, Cambridge MA, The MIT Press.
Austin, J. L. 1962, How to do things with words, Cambridge, MA, Harvard University Press.
Beckman, M. E. & G. M. Ayers 1994, Guidelines for ToBI Labelling. Version 2.0, February 1994.
Linguistics Department, Ohio State University.
Beckman, M. E. & J. Hirschberg 1994, The ToBI Annotation Conventions. In Beckman, M. E. & G.
M. Ayers (a cura di), Guidelines for ToBI Labelling. Version 2.0, February 1994. Linguistics
Department, Ohio State University.
Bray, T., Paoli, J., & C. M. Sperber-McQueen (a cura di) 1998, “Extensible Markup Language
(XML) 1.0”, W3C Recommendation 10 February 1998, <http://www.w3.org/TR/REC-xml>
Calzolari, N., Baker, M., & J.G. Kruyt (a cura di) 1995, “Towards a network of European Reference
Corpora”, Report of the NERC Consortium Feasibility Study, Pisa, Giardini.
Carletta, J. 1999, “A generic approach to software support for lingistic annotation using XML”;
proposto per la pubblicazione.
Carletta, J. C., Isard, A., Kowtko, J., Doherty-Sneddon, G. & A. Anderson 1997, “The Reliability of
Dialogue Structure Coding Scheme”, in Computational Linguistics, 23: 13-31.
Carletta, J. C., Isard, A., Kowtko, J., Doherty-Sneddon, G. & A. Anderson 1996, HCRC Dialogue
Structure Coding Manual, HCRC TR-82, Edinburgh, Scotland, Human Communication
Research Centre, <http://www.hcrc.ed.ac.uk/~jeanc/>.
Carroll J., Briscoe, T., Calzolari, N., Federici, S., Montemagni, S., Pirrelli, V., Grefenstette, G.,
Sanfilippo, A., Carroll, G. & M. Rooth 1996, Specification of Phrasal Parsing, Deliverable 1,
E-325
Work Package 1, EC project SPARKLE “Shallow Parsing and Knowledge Extraction for
Language Engineering” (LE-2111), <http://www.ilc.pi.cnr.it/sparkle>.
Clark, J. (a cura di) 1999, “XSL Transformations (XSLT), Version 1.0”, W3C Working Draft,
<http://www.w3.org/TR/WD-xslt>
Condon, S. & C. Cech 1995, Manual for Coding Decision-Making Interactions. Discourse
Intervention Project, Universite’ des Acadiens, University of Southwestern Louisiana,
<ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/condon>
Corazzari, O., Monachini, M. & A. Roventini 1996, “Italian Morphosyntactic Tagset: Guidelines
for the Interpretation and the Manual Checking” PAROLE deliverable, ILC-CNR.
Core, M., Ishizaki, M., Moore, J., Nakatani, C., Reithinger, N., Traum, D. & S. Tutiya 1999, The
Report of The Third Workshop of the Discourse Resource Initiative. Chiba Corpus Project,
Technical Report No.3 (CC-TR-99-1), Chiba University and Kazusa Academia Hall, May
1998.
Crystal, D. 1969, Prosodic Systems and Intonation in English. Cambridge: Cambridge University
Press.
Dahlbäck, N. & A. Jönsson 1998, A coding manual for the Linköping dialogue model, manoscritto,
<ftp://www.cs.umd.edu/users/traum/DSD/arne2.ps>
Danieli, M. & L. Carletti 1998, “Information about the coding of the Italian human-machine
dialogues”, Cselt Technical Document.
Di Eugenio, B., Jordan, P. W. & L. Pylkkänen 1998, The COCONUT project: dialogue annotation
manual
(draft),
ISP
Technical
Report
98-1,
<http://www.isp.pitt.edu/~intgen/research-papers.html>
Dybkjaer, L., Isard, A., McKelvie, D., Klein, M., Mengel, A., Møller, M.B., Evert, S., Fitschen, A.,
Heid, U., Kipp, M., Reithinger, N., & B. Cappelli 1998, “MATE Deliverable D3.1:
Specification
of
Coding
Workbench.
Version
1”,
<http://www.cogsci.ed.ac.uk/~amyi/mate/report.html>
Eeg-Olofsson, J. 1991, Word-class tagging: Some computational tools, PhD Thesis, Department of
Linguistics and Phonetics, Lund, Sweden.
Endriß, U. 1998, "Semantik zeitlicher Ausdrücke in Terminvereinbarungsdialogen", Verbmobil
Report 227, Technische Universität Berlin.
Eyes, E. 1996, The BNC Treebank: Syntactic Annotation of a Corpus of Modern British English,
M.A. Dissertation, Lancaster University, Department of Linguistics and Modern English
Language.
Federici, S., Montemagni, S. & V. Pirrelli 1996, “Shallow Parsing and Text Chunking: a View on
Underspecification in Syntax”, in J. Carroll (a cura di), Proceedings of the Workshop On
Robust Parsing, ESSLI, Praga, Repubblica Ceca, 12-16 Agosto 1996.
Federici, S., Montemagni, S. & V. Pirrelli 1998, “An Analogy-based System for Lexicon
Acquisition”, SPARKLE Working Paper.
E-326
Flammia, G. 1996, Instructions for Annotating Segments in Dialogues, <ftp://slsftp.lcs.mit.edu/pub/multiparty/coding_schemes/flammia>.
Francis, W.N., & H. Kucera, 1979, Brown Corpus Manual: Manual of Information to accompany
a Standard Corpus of Present-Day Edited American English, for use with Digital Computers.
Brown
University,
Department
of
Linguistics,
Providence,
Rhode
Island.
http://khnt.hit.uib.no/icame/manuals/brown/INDEX.HTM
Frazier L. & J. Fodor 1978, “The sausage machine: A new two-stage parsing model”, Cognition, 6:
291-325.
Fujisaki, H. & H. Sudo 1971, “Synthesis by rule of prosodic features of connected Japanese”, in
Proceedings of the VII International Congress on Acoustics, Budapest 1971.
Garside, R., Leech, G. & T. McEnery (a cura di) 1997, Corpus Annotation: Linguistic Information
from Computer Text Corpora, London, Longman.
Gibbon, D. (a cura di) 1999, Handbook of Standards and Resources for Spoken Language Systems.
First supplement, EAGLES LE3-4244, Spoken Language Working Group.
Goldman, R., McHugh, J. & J. Widom 1999, “From Semistructured Data to XML: Migrating the
Lore Data Model and Query Language”, in Proceedings of the 2nd International Workshop on
the Web and Databases (WebDB ’99), Philadelphia, Pennsylvania.
Greenbaum, S. & Y. Ni 1996, “About the ICE tagset”, in S. Greenbaum (a cura di), English
Worldwide: The International Corpus of English, Oxford, Clarendon Press: 92-109.
Greenbaum, S. (a cura di) 1996, English Worldwide: The International Corpus of English, Oxford,
Clarendon Press.
Grice M. & M. Savino 1995b, “Low tone versus ësagí”, in Bari Italian intonation; a perceptual
experiment. Proc. XIII International Congress of Phonetic Sciences, Stockholm 1995.
Grice, M. & R. Benzmüller 1995a, “Transcription of German intonation using ToBI tones. The
Saarbrücken system”, in Phonus 1, University of the Saarland: 33-51.
Grice, M., Reyelt, M., Benzmuller, R., Mayer, J. & A. Batliner 1996, “Consistency in Transcription
and Labelling of German Intonation with GtoBI”, in Proc. Fourth International Conference on
Spoken Language Processing, Philadelphia: 1716-1719.
Heid, U. & A. Mengel 1999, “A Query Language for Research in Phonetics”, in Proceedings of the
International Congress of Phonetic Sciences, San Francisco, August 1999.
Hirst, D.J. 1991, “Intonation models: Towards a third generation”, in Actes du XIIème Congrès
International des Sciences Phonétiques, 19-24 Aout 1991, Aix-en-Provence, France.
Hirst, D.J. 1994, “The symbolic coding of fundamental frequency curves: from acoustics to
phonology”, in H. Fujisaki (a cura di), Proceedings of International Symposium on Prosody,
Satellite Workshop of ICSLP 94, Yokohama, Settembre 1994.
Hirst, D.J. & A. di Cristo (a cura di) 1998, Intonation Systems: A Survey of Twenty Languages,
Cambridge, Cambridge University Press.
E-327
Ichikawa, A. et al. 1998, “Standardising Annotation Schemes for Japanese Discourse”.
Ichikawa, A., Araki M., Horiuchi Y. et al. 1999, “Evaluation of Annotation Schemes for Japanese
Discourse”.
Isard, A., McKelvie, D. & H.S. Thompson 1998, “Towards a Minimal Standard for Dialogue
Transcripts: A New Sgml Architecture for the HCRC Map Task Corpus”, in Proceedings of the
5th International Conference on Spoken Language Processing (ICSLP98), Sydney, Dicembre
1998, <http://www.cogsci.ed.ac.uk/~dmck/icslp98.ps>.
Jensen, K. 1993, “PEG: the PLNLP English Grammar”, in Jensen, K., Heidorn, G.E. & S.D.
Richardson (a cura di), Natural Language Processing: The PLNLP Approach, Boston, Kluwer
Academic Publishers: 29-45.
Johansson, S. 1995a, “The approach of the Text Encoding Initiative to the encoding of spoken
discourse”, in Leech, G., Myers, G. & J. Thomas (a cura di), Spoken English on Computer:
Transcription, Markup and Applications, Harlow, Longman: 82-98.2.
Johansson, S. 1995b, “The Encoding of Spoken Texts”, in Ide, N. & J. Véronis (a cura di), The Text
Encoding Initiative. Background and Context, Dordrecht, Kluwer: 149-158.
Johansson, S., Leech, G. & H. Goodluck 1978, Manual of Information to Accompany the
Lancaster-Oslo/Bergen Corpus of British English, for Use with Digital Computers. University
of Oslo, Department of English. http://khnt.hit.uib.no/icame/manuals/lob/INDEX.HTM
Jönsson, A. 1993, “A Method for Development of Dialogue Managers for Natural Language
Interfaces”, in Proceedings of AAAI-93, Washington DC: 190-195.
Jönsson, A. 1995a, “A Dialogue Manager for Natural Language Interfaces”, in Proceedings of
IJCAI-95, Montreal, Canada.
Jönsson, A. 1995b, “A Dialogue Manager for Natural Language Interfaces”, in Proceedings of the
Pacific Association for Computational Linguistics, Second Conference, Brisbane, Australia,
The University of Queensland.
Jurafsky, D., Shriberg, L. & D. Biasca 1997, Switchboard SWBD-DAMSL, Shallow-DiscourseFunction
Annotation:
Coders
Manual,
Draft
13,
<http://stripe.Colorado.EDU/~jurafsky/manual.august1.html>.
Karlsson, F., Voutilainen, A., Heikkila, J. & A. Anttila (a cura di) 1995, Constraint Grammar, a
language-independent system for parsing unconstrained text, Berlin e New York, Mouton de
Gruyter.
Kimball, J. 1972, “Seven principles of surface structure parsing in natural language”, Cognition, 2:
15-47.
Klein, M., Bernsen, N. O., Davies, S., Dybkjær, L., Garrido, J., Kasch, H., Mengel, A., Pirrelli, V.,
Poesio, M., Quazza, S. & C. Soria 1999, MATE, Multilevel Annotation, Tools Engineering.
Supported Coding Schemes, Deliverable D1.1. LE Telematics Project LE4 – 8370.
Krippendorf, K. 1980, Content Analysis. An Introduction to Its Methodology, Beverly Hills, Sage
Publications.
E-328
Küssner, U. & M. Stede 1995, "Zeitliche Ausdrücke: Repräsentation und Inferenz", Verbmobil
Memo 100, Technische Universität Berlin.
Larsson, S. 1998, Coding Schemas for Dialogue Moves, Göteborg University.
Leech, G. & A. Wilson 1996, Recommendations for the morphosyntactic annotation of corpora.
EAGLES Document EAG-TCWG-MAC/R.
Leech, G. & R. Garside 1991, “Running a grammar factory: The production of syntactically
analysed corpora or ‘treebanks’”, in S. Johansson & A.B. Stenstrom (a cura di), English
Computer Corpora: Selected Readings and Research Guide, Berlin e New York, Mouton de
Gruyter: 15-32.
Leech, G., Barnett, R., & P. Kahrel 1996, “Guidelines for the standardization of syntactic
annotation of corpora”, EAGLES Document EAG-TCWG-SPT/P.
Lehiste, I. 1970, Suprasegmentals, Cambridge, MA, The MIT Press.
Llisterri, J. 1996, Preliminary Recommendations on Spoken Texts. EAGLES Document EAGTCWG-SPT/P, Maggio 1996.
MacWhinney, B. 1995, The CHILDES project: Tools for analyzing talk, Hillsdale, NJ, Erlbaum.
Marcos-Marín, F., Ballester, A. & C. Santamaría 1993, “Transcription conventions used for the
Corpus of Spoken Contemporary Spanish”, Literary and Linguistic Computing 8(4): 283-292.
Marcus, M., M.A. Marcinkiewicz & B. Santorini 1993, “Building a Large Annotated Corpus of
English: The Penn Treebank”, Computational Linguistics 19(2): 313-330.
MATE (Multilevel Annotation, Tools Engineering), http://mate.nis.sdu.dk
Mayer, J. 1995, Transcription of German intonation – the Stuttgart System, Manoscritto, University
of Stuttgart.
Mayo, C., Aylett, M. & R. Ladd 1997, “Prosodic transcription of Glasgow English: an evaluation
study of GlaToBI”, in Proceedings of ESCA Workshop on Intonation, Atene 1997.
McKelvie, D., Isard, A., Mengel, A., Moller, M., Grosse, M. & M. Klein 1999, “The Mate
Workbench – an annotation tool for XML coded speech corpora”. Proposto per la
pubblicazione.
Meeter, M. et al. 1995, “Dysfluency Annotation Stylebook for the Switchboard Corpus”.
Manoscritto.
Mengel, A. & U. Heid 1999, “Enhancing Reusability of Speech Corpora by Hyperlinked Query
Output”, in Proceedings of Eurospeech 99, Budapest, Settembre 1999.
Monachini, M., & A. Östling 1992a, “Morphosyntactic Corpus Annotation – A Comparison of
Different Schemes”, Technical Report NERC-60, ILC, Pisa.
Monachini, M., & A. Östling 1992b, “Towards a Minimal Standard for Morphosyntactic Corpus
Annotation”, Technical Report NERC-61, ILC, Pisa.
E-329
Montemagni, S. 1992, “Syntactically annotated corpora: comparing the underlying annotation
schemes”, Technical Report NERC-67, ILC Pisa.
Moreno Sandoval, A., Lopez Ruesga, S., & F. Sanchez León 1999, “Spanish Tree Bank:
Specifications”. Version 4. Manoscritto.
Nakatani, C. H., Grosz, B. J., Ahn, D. D. & J. Hirschberg 1995, Instructions for Annotating
Discourse, Technical Report Number TR-21-95, Center for Research in Computing
Technology,
Harvard
University,
Cambridge,
MA,
<ftp://slsftp.lcs.mit.edu/pub/multiparty/coding_schemes/nakatani>
Nelson, G. 1996, “Markup systems”, in S. Greenbaum (a cura di), English Worldwide: The
International Corpus of English, Oxford, Clarendon Press: 36-53.
Nespor, M. & I. Vogel 1986, “Prosodic Phonology”, in Studies in Generative Grammar, 28,
Dordrecht, Foris Publications.
Nivre, J., Allwood, J. & E. Ahlsén 1998, Interactive Communication Management: Coding Manual,
Göteborg University, Department of Linguistics.
Nolan, F. & E. Grabe 1997, “Can ToBI transcribe intonational variation in British English?”, in
Proceedings of ESCA Workshop on Intonation, Atene 1997.
Norskog, L. “SoX sound file format converter”, <http://www.spies.com/Sox>.
O’Connor, J. D. & G. F. Arnold 1973, Intonation of Colloquial English, London, Longman.
Palmer, H. E. 1922, English Intonation, with systematic exercises, Cambridge, Heffer.
Payne, J. 1992, “Report on the compatibility of J P Frenchís spoken corpus transcription
conventions with the TEI guidelines for transcription of spoken texts”, NERC WP8/WP4 –
122, COBUILD Birmingham e IDS Mannheim, Dicembre 1992,.
Pierrehumbert, J. B. 1980, The Phonology and Phonetics of English Intonation, Bloomington, Ind.,
Indiana University Linguistics Club.
Pitrelli, J., Beckman, M. & J. Hirschberg 1994, “Evaluation of prosodic transcription labelling
reliability in the ToBI framework”. In Proceedings of the 3rd International Conference on
Spoken Language Processing, Yokohama, ICSLP, Vol. 2: 123-126.
Pollard C. & I. Sag 1994, Head-Driven Phrase Structure Grammar, Stanford, CA, CSLI.
Price, P. 1992, “Summary of the Second Prosodic Transcription Workshop: the TOBI (TOnes and
Break Indices) Labeling System”. Nynex Science and Technology, Inc, 5-6 April 1992. In
Linguist List vol. 3-761, 9 October 1992.
Reithinger, N. 1999, “Robust Information Extraction in a Speech Translation System”, in
Proceedings of Eurospeech '99, Budapest, Ungheria, vol. 6: 2427-2430.
Reyelt, M. & A. Batliner 1994, “Ein Inventar prosodischer Etiketten für VERBMOBIL”, in
Verbmobil Memo 33.
E-330
Roach, P. 1983, English Phonetics and Phonology. A practical course, Cambridge, Cambridge
University Press.
Sampson, G. 1995, English for the Computer, Oxford, Clarendon Press.
Sampson,
G.
1999,
“CHRISTINE
Corpus,
Stage
I:
Documentation”.
http://www.cogs.susx.ac.uk/users/geoffs/ChrisDoc.html
Searle, J. 1969, Speech Acts, Cambridge, England, Cambridge University Press.
Silverman, K., Beckman, M., Pitrelli, J., Ostendorf, M., Wightman, C., Price, P., Pierrehumbert, J.
& J. Hirschberg 1992, “TOBI: A standard for labeling English prosody”, in Ohala, J.J. et al. (a
cura di), Proceedings of the Second International Conference on Spoken Language Processing
92: 867-870.
Sokolov, J. L. & C. E. Snow (a cura di) 1994, Handbook of research in language development
using CHILDES, Hillsdale, NJ, Erlbaum.
Souter, C. 1989, PoW Corpus Manual. A short handbook to the Polytechnic of Wales Corpus.
Centre for Computer Analysis of Language and Speech (CCALAS), School of Computer
Studies, University of Leeds. http://khnt.hit.uib.no/icame/manuals/pow.htm
Sperberg-McQueen, C. M. & L. Burnard 1994, Guidelines for Electronic Text Encoding and
Interchange. TEI P3. Chapter 11: Transcriptions of Speech, Association for Computational
Linguistics / Association for Computers and the Humanities / Association for Literary and
Linguistics Computing, Chicago and Oxford.
Svartvik, J. & M. Eeg-Olofsson 1982, “Tagging the London-Lund Corpus of Spoken English”, in S.
Johansson (a cura di), Computer Corpora in Spoken Language Research, Bergen, Norwegian
Computer Centre for the Humanities: 85-109.
Svartvik, J. & M. Eeg-Olofsson 1982, “Tagging the London-Lund Corpus of Spoken English”, in S.
Johansson (a cura di), Computer Corpora in English Language Research, Bergen, Norwegian
Computer Centre for the Humanities: 85-109.
Svartvik, J. (a cura di) 1990, The London Corpus of Spoken English: Description and Research.
Lund
Studies
in
English
82.
Lund
University
Press.
http://khnt.hit.uib.no/icame/manuals/LONDLUND/INDEX.HTM
Taylor, L. J. & G. Knowles 1988, “Manual of Information to Accompany the SEC Corpus, the
Machine-Readable Corpus of Spoken English Unit for Computer Research on the English
Language”, Bowland College, University of Lancaster, Bailrigg, Lancaster, UK.
http://khnt.hit.uib.no/icame/manuals/sec/INDEX.HTM
‘t Hart, J., Collier, R. & A. Cohen 1990, A Perceptual Study of Intonation. An Experimentalphonetic Approach to Speech Melody, Cambridge, Cambridge University Press.
Tomita, M 1987, “An Efficient Augmented-Context-Free Parsing Algorithm”, Computational
Linguistics, 13: 31-46.
Traum,
D.
1996,
Coding
Schemes
for
Spoken
Dialogue
ftp.lcs.mit.edu/pub/multiparty/coding_schemes/traum>
E-331
Structure,
<ftp://sls-
van Vark, R. J., de Vreught, J. P. M. & L. J. M. Rothkrantz 1996, Analysing OVR dialogue coding
scheme 1.0, Report 96-137, <ftp://ftp.twi.tudelft.nl/TWI/publications/techreports/1996/DUT-TWI-96-137.ps.gz>.
Vatton, I. et al., “Amaya – W3C’s Editor/Browser”, <http://www.w3.org/Amaya>.
Voghera, M. 1992, Sintassi e intonazione nell’italiano parlato, Bologna, Il Mulino.
W3C 1998, “Document Object Model (DOM)”, December 1998, <http://www.w3.org/DOM/>.
W3C 1999, “XML Pointer Language (Xpointer)”, W3C Working Draft, 9 July 1999,
<http://www.w3.org/TR/WD-xptr>.
Walker, M. A., Litman, D. J., Kamm, C. A. & A. Abella 1997, “PARADISE: A Framework for
Evaluating Spoken Dialogue Agents”, in Proceedings of the 35th Annual Meeting of the
Association for Computational Linguistics and 8th Conference of the European Chapter of the
Association for Computational Linguistics, Madrid, Spain, Universidad Nacional de Educación
a Distancia (UNED), 7-12 July 1997: 271-280.
Wells, J., Barry, W., Grice, M., Fourcin, A. & D. Gibbon 1992, “Standard Computer-Compatible
Transcription”, SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992, London, University
College London.
E-332
Appendice - Specifica XML delle trascrizioni ortografiche
Le DTD (Document Type Description) per le trascrizioni ortografiche che presentiamo sono
basate sulle DTD per la trascrizione ortografica realizzate in MATE e sono state adattate secondo i
requisiti del progetto SI-TAL.
Il formalismo adottato per le DTD è XML, in particolare ci si riferisce alla rappresentazione
interna adottata nel progetto MATE. Una DTD XML è così definita:
*nodeType
*element
*entity
*comment
*order
"DTD"
Vector(Node(ELEMENTDEF))
Vector(Node(ENTITYDEF))
Vector(Node(COMMENT))
Vector(Node)
Elemento definito nella DTD
Entità definita nella DTD
Commenti nella DTD.
Lista ordinata comprendente COMMENT,
ELEMENTDEF, ENTITYDEF definiti nella
DTD
Per una definizione completa del formalismo si rimanda al documento consultabile nel sito web
dell'Università di Edimburgo al seguente indirizzo:
http://www.cogsci.ed.ac.uk/~dmck/MateCode/ir/ir.html.





<!ELEMENT transcription (turn+)>

<!ATTLIST transcription
id
ID
data
CDATA
ora
CDATA
luogo
CDATA
#REQUIRED
#REQUIRED
#REQUIRED
#REQUIRED>
<!ELEMENT turn (utt)+>

<!ATTLIST turn
id
who
start
end
dur
file
ID
CDATA
CDATA
CDATA
CDATA
CDATA
#REQUIRED
#REQUIRED
#IMPLIED
#IMPLIED
#IMPLIED
#REQUIRED>
E-333
<!ELEMENT utt (word|fil|spk|sta|int)+>

<!ATTLIST utt
id
who
start
end
dur
ID
CDATA
CDATA
CDATA
CDATA
#REQUIRED
#IMPLIED
#IMPLIED
#IMPLIED
#IMPLIED>
<!ELEMENT word (#PCDATA)>

<!ATTLIST word
id
who
start
end
dur
ID
CDATA
CDATA
CDATA
CDATA
#REQUIRED
#IMPLIED
#IMPLIED
#IMPLIED
#IMPLIED>
<!ELEMENT fil EMPTY>

<!ATTLIST fil
id
who
desc
start
end
dur
ID
CDATA
CDATA
CDATA
CDATA
CDATA
#REQUIRED
#IMPLIED
#REQUIRED
#IMPLIED
#IMPLIED
#IMPLIED>
<!ELEMENT pause EMPTY>

<!ATTLIST pause
who
type
start
end
dur
CDATA
CDATA
CDATA
CDATA
CDATA
#IMPLIED
#IMPLIED
#IMPLIED
#IMPLIED
#IMPLIED>
<!ELEMENT spk EMPTY>

<!ATTLIST spk
id
who
desc
start
end
dur
ID
CDATA
CDATA
CDATA
CDATA
CDATA
#REQUIRED
#IMPLIED
#REQUIRED
#IMPLIED
#IMPLIED
#IMPLIED>
E-334
<!ELEMENT sta EMPTY>

<!ATTLIST sta
id
who
desc
start
end
dur
ID
CDATA
CDATA
CDATA
CDATA
CDATA
#REQUIRED
#IMPLIED
#REQUIRED
#IMPLIED
#IMPLIED
#IMPLIED>
<!ELEMENT int EMPTY>

<!ATTLIST int
id
who
desc
start
end
dur
ID
CDATA
CDATA
CDATA
CDATA
CDATA
#REQUIRED
#IMPLIED
#REQUIRED
#IMPLIED
#IMPLIED
#IMPLIED>
E-335