Treebank sintattico-semantica della lingua italiana

Transcript

Treebank sintattico-semantica della lingua italiana
SI-TAL
Documento di Specifiche Tecniche di SI-TAL
Manuale Operativo
Capitolo 4
Specifiche tecniche per la Treebank
sintattico-semantica dell’italiano
**
Consorzio Pisa Ricerche - (CPR)
Consorzio Venezia Ricerche - (CVR)
Istituto Trentino di Cultura - Istituto per la Ricerca Scientifica e
Tecnologica - (ITC-irst)
Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni
Informatiche - (CERTIA)
Synthema
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Sommario
1
INTRODUZIONE
6
2
IL CORPUS DELLA TREEBANK DI SI-TAL 8
2.1
Composizione del corpus............................................................................................................................... 8
2.2
Annotazione morfo-sintattica ....................................................................................................................... 9
3 ANALISI E CONFRONTO DI MODELLI DI ANNOTAZIONE ESISTENTI:
RISULTATI 11
3.1
Annotazione sintattica ................................................................................................................................. 11
3.1.1 Schemi di annotazione considerati............................................................................................................ 11
3.1.2 Schemi di annotazione: parametri di confronto ........................................................................................ 11
3.1.3 La Treebank sintattica di SI-TAL nel panorama dei corpora annotati...................................................... 13
3.2
4
Annotazione semantico-lessicale................................................................................................................. 14
SCHEMA DI ANNOTAZIONE
15
4.1
Specifiche di annotazione per il livello sintattico ...................................................................................... 15
4.1.1 Articolazione interna dello schema di annotazione sintattica ............................................................. 16
4.1.2 Strategie di base per l’annotazione........................................................................................................ 17
4.1.3 Specifiche di annotazione per il livello sintattico a costituenti ................................................................. 18
4.1.3.1
Teoria X-barra e costituenza sintattica ............................................................................................ 18
4.1.3.2
Costituenti sintattici nello schema di annotazione di SI-TAL......................................................... 19
4.1.3.2.1 F ................................................................................................................................................. 20
4.1.3.2.2 IBAR .......................................................................................................................................... 20
4.1.3.2.3 SN .............................................................................................................................................. 21
4.1.3.2.4 SP ............................................................................................................................................... 22
4.1.3.2.5 SPDA ......................................................................................................................................... 22
4.1.3.2.6 SPD ............................................................................................................................................ 22
4.1.3.2.7 SA .............................................................................................................................................. 22
4.1.3.2.8 SAVV......................................................................................................................................... 23
4.1.3.2.9 SV2 ............................................................................................................................................ 23
4.1.3.2.10 SV3 .......................................................................................................................................... 23
4.1.3.2.11 SV5 .......................................................................................................................................... 23
4.1.3.2.12 F2 ............................................................................................................................................. 24
4.1.3.2.13 FINT......................................................................................................................................... 24
4.1.3.2.14 FAC.......................................................................................................................................... 24
4.1.3.2.15 COMPT.................................................................................................................................... 25
4.1.3.2.16 COMPIN .................................................................................................................................. 25
4.1.3.2.17 COMPC.................................................................................................................................... 26
4.1.3.2.18 COORD.................................................................................................................................... 26
4.1.3.2.18.1 FC.......................................................................................................................................... 27
4.1.3.2.19 FP ............................................................................................................................................. 27
4.1.3.2.20 CP............................................................................................................................................. 28
4.1.3.2.21 FS e CP .................................................................................................................................... 29
4.1.3.3
Tipologia dei costituenti sintattici della Treebank di SI-TAL......................................................... 30
4.1.3.3.1 Costituenti Funzionali Strutturali ............................................................................................... 31
4.1.3.3.2 Costituenti Funzionali Lessicali ................................................................................................. 31
4.1.3.3.3 Costituenti Sostanziali................................................................................................................ 32
4.1.3.4
Criteri di annotazione ...................................................................................................................... 32
4.1.3.4.1 Costituenti minori, Modificatori e Marcatori Semantici ............................................................ 32
D-2
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.1.3.4.2 Costituenti vuoti......................................................................................................................... 33
4.1.3.4.3 Clitici.......................................................................................................................................... 33
4.1.3.4.4 Il “SI” espletivo: inerente, passivante, medio e impersonale ..................................................... 34
4.1.3.4.5 Preposizioni e SP ....................................................................................................................... 34
4.1.3.4.6 Modali e costruzioni perifrastiche di varia natura (aspettuali, causativi) ................................... 34
4.1.4 Specifiche di annotazione per il livello funzionale................................................................................ 35
4.1.4.1
Tipologia delle relazioni funzionali................................................................................................. 37
4.1.4.1.1 Inventario delle relazioni......................................................................................................... 38
4.1.4.1.2 Tratti associati agli elementi della relazione.......................................................................... 43
4.1.4.1.2.1 Tratti distintivi del DIPENDENTE ......................................................................................... 43
4.1.4.1.2.2 Tratti distintivi della TESTA ................................................................................................ 45
4.1.4.1.2.3 Tratti distintivi della TESTA e del DIPENDENTE ................................................................... 45
4.1.4.1.2.4 Tratti distintivi della TESTA e del DIPENDENTE: riepilogo................................................... 46
4.1.4.1.3 Altri tipi di relazioni................................................................................................................. 47
4.1.4.1.3.1 Annotazione di costruzioni coordinate ............................................................................... 47
4.1.4.1.3.2 Annotazione di relazioni di coreferenza............................................................................. 47
4.1.4.2
Criteri di annotazione per il livello funzionale ................................................................................ 48
4.1.4.2.1 La distinzione tra argomenti e modificatori .......................................................................... 49
4.1.4.2.2 Costruzioni di base................................................................................................................... 50
4.1.4.2.2.1 Costruzioni con verbo intransitivo ..................................................................................... 50
4.1.4.2.2.2 Costruzioni con verbo intransitivo inaccusativo................................................................. 51
4.1.4.2.2.3 Costruzioni con verbo transitivo con oggetto diretto ......................................................... 51
4.1.4.2.2.4 Costruzioni con verbo transitivo con oggetto indiretto ...................................................... 51
4.1.4.2.2.5 Costruzioni con verbo transitivo con complemento obliquo .............................................. 51
4.1.4.2.2.6 Costruzioni passive............................................................................................................. 51
4.1.4.2.2.7 Costruzioni con completive sottocategorizzate .................................................................. 52
4.1.4.2.2.8 Costruzioni con modificazione frasale (gerundive, participiali, infinitive) ........................ 53
4.1.4.2.2.9 Costruzioni con complementi predicativi del soggetto e dell’oggetto................................ 53
4.1.4.2.2.10 Complementazione di nomi e aggettivi......................................................................... 55
4.1.4.2.2.11 Negazione ........................................................................................................................ 56
4.1.4.2.2.12 Costruzioni esistenziali................................................................................................... 56
4.1.4.2.2.13 Costruzioni coordinate................................................................................................... 56
4.1.4.2.2.14 Condivisione di complementi in costruzioni coordinate ............................................. 58
4.1.4.2.3 Costruzioni ellittiche ................................................................................................................ 58
4.1.4.2.3.1 Ellissi del soggetto ............................................................................................................. 58
4.1.4.2.3.2 Ellissi del verbo.................................................................................................................. 58
4.1.4.2.4 Annotazione di relazioni di coreferenza................................................................................. 60
4.2
Interrelazioni tra i due livelli di annotazione sintattica............................................................................ 60
4.3
Specifiche di annotazione per il livello semantico-lessicale ...................................................................... 61
4.3.1.1
L’input all’annotazione semantico-lessicale ................................................................................... 62
4.3.1.2
L’annotazione semantico-lessicale: elementi e tratti descrittivi ...................................................... 62
4.3.1.2.1 L’elemento <us .......................................................................................................................... 64
4.3.1.2.1.1 alter..................................................................................................................................... 64
4.3.1.2.1.2 fig ....................................................................................................................................... 64
4.3.1.2.1.3 np........................................................................................................................................ 65
4.3.1.2.1.4 Sommario dei tratti che descrivono <us ............................................................................. 65
4.3.1.2.2 L’elemento <usc......................................................................................................................... 66
4.3.1.2.2.1 tipousc ................................................................................................................................ 66
4.3.1.2.2.2 fig ....................................................................................................................................... 67
4.3.1.2.2.3 Sommario dei tratti che descrivono <usc ........................................................................... 67
4.3.1.2.3 L’elemento <ust ......................................................................................................................... 67
4.3.1.2.3.1 Sommario dei tratti che descrivono <ust ............................................................................ 68
4.3.1.2.4 Altri tratti che possono essere usati nella definizione di unità di senso ..................................... 68
4.3.1.2.4.1 Sommario dei tratti relativi all’annotazione ....................................................................... 68
4.3.1.2.5 Tabella sinottica dei tratti per l’annotazione semantico-lessicale .............................................. 69
4.3.2 Criteri di annotazione................................................................................................................................ 69
4.3.2.1
Criteri di annotazione delle <us....................................................................................................... 69
4.3.2.1.1 Alterati e aggettivi superlativi .................................................................................................... 69
4.3.2.1.2 Nomi Propri ............................................................................................................................... 71
D-3
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.3.2.1.3 Parole Straniere .......................................................................................................................... 71
4.3.2.2
Criteri di annotazione delle <usc..................................................................................................... 72
4.3.2.2.1 Perché l’annotazione delle <usc................................................................................................. 72
4.3.2.2.2 Problemi nell’identificazione ed interpretazione delle <usc ...................................................... 73
4.3.2.2.3 Identificazione degli elementi costitutivi delle <usc .................................................................. 74
4.3.2.2.4 Espressioni idiomatiche e composti ........................................................................................... 75
4.3.2.2.4.1 Criteri di identificazione delle espressioni idiomatiche e dei composti.............................. 76
4.3.2.2.5 Espressioni con verbo supporto.................................................................................................. 78
4.3.2.3
Criteri di annotazione delle <ust...................................................................................................... 81
4.3.2.4
Gli Usi Figurati................................................................................................................................ 82
4.3.2.4.1 La Metafora................................................................................................................................ 82
4.3.2.4.2 La Metonimia............................................................................................................................. 83
4.3.2.5
Terminologia ................................................................................................................................... 84
4.3.2.6
Casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso attestato .................. 85
4.3.2.6.1 Assenza del lemma..................................................................................................................... 85
4.3.2.6.2 Assenza del senso rilevante di un lemma già presente in IWN.................................................. 85
4.3.2.6.3 Corrispondenza con più sensi dello stesso lemma ..................................................................... 86
5
METODOLOGIA DI ANNOTAZIONE
87
5.1
Metodologia di annotazione per il livello sintattico (a costituenti e funzionale)..................................... 87
5.1.1 Modalità dell’annotazione a costituenti .................................................................................................... 88
5.1.1.1
Parentesizzazione di base ................................................................................................................ 88
5.1.1.2
Parentesizzazione dei costituenti dominanti.................................................................................... 89
5.1.2 Modalità dell’annotazione funzionale....................................................................................................... 90
5.2
Metodologia di annotazione per il livello semantico-lessicale .................................................................. 91
5.2.1 Integrazioni richieste della risorsa lessicale di riferimento: casistica ....................................................... 93
5.2.1.1
Criteri per la definizione di un nuovo senso.................................................................................... 93
6 SPECIFICHE DEL SOFTWARE PER L’ANNOTAZIONE E LA NAVIGAZIONE
NELLA TREEBANK
96
6.1
Requisiti Funzionali..................................................................................................................................... 97
6.1.1 Annotazione Sintattica a costituenti.......................................................................................................... 98
6.1.2 Annotazione Sintattico-funzionale............................................................................................................ 98
6.1.3 Annotazione Semantico-Lessicale ............................................................................................................ 98
6.1.4 Validazione ............................................................................................................................................... 99
6.2
Architettura del sistema .............................................................................................................................. 99
6.3
Requisiti Software...................................................................................................................................... 101
7
VALUTAZIONE
101
7.1.1 Rapida descrizione del sistema di traduzione ......................................................................................... 102
7.1.2 Modifiche al sistema di traduzione e modalità di interrogazione della Treebank................................... 104
7.1.2.1
Modifiche da apportare al contenuto dei dizionari ........................................................................ 104
7.1.2.1.1 Aggiunta dei lemmi del corpus mancanti................................................................................. 105
7.1.2.1.2 Inserimento di nuove MWE. .................................................................................................... 105
7.1.2.1.3 Analisi dell’annotazione semantica.......................................................................................... 105
7.1.2.2
Ampliamento e raffinamento dell’insieme delle regole di analisi ................................................. 106
7.1.2.2.1 Verifica delle strutture previste ................................................................................................ 106
7.1.2.3
Ampliamento e raffinamento dell’insieme delle regole di ‘transfer’............................................. 107
7.1.3 Valutazione dei risultati .......................................................................................................................... 107
7.1.3.1
Individuazione di un corpus sul quale effettuare la validazione.................................................... 107
7.1.3.2
Criteri per la valutazione ............................................................................................................... 107
RIFERIMENTI BIBLIOGRAFICI
109
D-4
Linea 1.1 - Treebank sintattico-semantica dell'italiano
APPENDICE 1: IL TAGSET PER L’ANNOTAZIONE MORFO-SINTATTICA 114
1
1.1
INTRODUZIONE
114
Formato di annotazione ............................................................................................................................ 115
1.2
Inventario delle etichette ed esempi ......................................................................................................... 115
1.2.1 Nomi (S) ................................................................................................................................................. 115
1.2.2 Verbi (V)................................................................................................................................................. 116
1.2.3 Aggettivi (A)........................................................................................................................................... 118
1.2.4 Pronomi (P)............................................................................................................................................. 120
1.2.5 Predeterminatori (T) ............................................................................................................................... 121
1.2.6 Determinatori (D) ................................................................................................................................... 122
1.2.7 Articoli (R).............................................................................................................................................. 123
1.2.8 Avverbi (B)............................................................................................................................................. 123
1.2.9 Preposizioni (E) ...................................................................................................................................... 123
1.2.10
Congiunzioni (C)................................................................................................................................ 124
1.2.11
Numerali (N) ...................................................................................................................................... 124
1.2.12
Interiezioni (I) .................................................................................................................................... 125
1.2.13
Punteggiatura (@@) .......................................................................................................................... 125
1.2.14
Abbreviazioni (SA) ............................................................................................................................ 125
1.2.15
Classe Residua (X)............................................................................................................................. 125
1.3
Legenda delle abbreviazioni ..................................................................................................................... 125
APPENDICE 2: STUDIO COMPARATIVO DI PRATICHE DI ANNOTAZIONE
SINTATTICA A COSTITUENTI: SI-TAL E GLI ALTRI
129
D-5
Linea 1.1 - Treebank sintattico-semantica dell'italiano
1 Introduzione
Obiettivo del tema “Treebank sintattico-semantica dell’italiano” è la costruzione di un corpus
dell’italiano annotato ai seguenti livelli di descrizione linguistica:
•
struttura sintattica a costituenti - per una copertura di circa 80.000 parole, verranno annotati i
costituenti sintagmatici e le loro relazioni di incassamento gerarchico;
•
struttura sintattica a livello funzionale - per una copertura di circa 300.000 parole, verranno
annotate le relazioni funzionali principali (es. soggetto, oggetto diretto);
•
semantico-lessicale - circa 80.000 parole piene (distribuite tra nomi, verbi e aggettivi) verranno
annotate semanticamente con l’assegnazione del senso rilevante (ricavato da ItalWordNet) nei
loro contesti di occorrenza.
Il corpus da annotare è ripartito in una parte “bilanciata” (costituita da diversi tipi di testi italiani,
scelti in particolare per aspetti di rilevanza applicativa e industriale), e da una parte specialistica. La
porzione di corpus specialistica avrà un ruolo cruciale per la valutazione della risorsa Treebank che
verrà usata nell’ambito di un sistema applicativo di traduzione automatica.
Questo tema risponde ad una esigenza prioritaria sia nel dominio applicativo sia in quello più
teorico e di ricerca, ovvero la necessità di produrre e di mettere a disposizione della comunità
culturale e industriale italiana risorse annotate a diversi livelli di descrizione linguistica che possano
svolgere la stessa funzione rivestita per la lingua inglese dalla “Penn Treebank” (Marcus et al. 1993,
1994) per quanto riguarda la sintassi oppure da “SEMCOR” (Landes et al. 1998) per quanto
concerne la semantica. Proprio l’esperienza di queste ultime dimostra come corpora annotati a
livello sintattico e semantico rappresentino un fattore determinante per lo sviluppo e valutazione di
applicazioni basate sul trattamento automatico del linguaggio.
In questo capitolo, vengono fornite le specifiche per i singoli livelli di annotazione insieme ad
una descrizione delle funzionalità del software di annotazione e della metodologia di valutazione
adottata nell’ambito del progetto per la validazione della Treebank.
La definizione delle specifiche è stata guidata dallo spettro di usi che si prospettano per il
risultato finale di questo tema nell’ambito di applicazioni di elaborazione del linguaggio naturale.
La tipologia degli usi di cui una risorsa di questo tipo si rende suscettibile è varia: si va dall’ambito
più propriamente applicativo, per compiti quali la disambiguazione di senso, all’addestramento
automatico (“training/tuning”) di sistemi per l’analisi sintattica automatica e per la disambiguazione
semantica dell’italiano, alla valutazione di sistemi di elaborazione del linguaggio naturale. L’aspetto
della valutazione dei risultati di diversi sistemi e tecniche è oggi cruciale, e anche per questo è
essenziale la creazione di corpora annotati da usarsi come riferimento per la valutazione (“testbed”).
Inoltre, corpora testuali annotati a diversi livelli di descrizione possono essere usati per l’induzione
di modelli linguistici e per l’acquisizione di informazione linguistica. In relazione a questi usi, sono
stati identificati una serie di desiderata che la Treebank di SI-TAL intende soddisfare:
•
usabilità per diversi scopi sia di tipo applicativo sia di ricerca;
•
compatibilità con diversi approcci alla sintassi:
•
basati su un’analisi a costituenti oppure su un’analisi a dipendenze;
D-6
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
adottati in ambito sia teorico sia di sistemi di trattamento automatico del linguaggio;
•
evitare trattamenti e rappresentazioni troppo condizionati dagli assunti teorici di un certo
paradigma e non facilmente ritraducibili in altri tipi di analisi;
•
applicabilità alla lingua scritta e al parlato;
•
applicabilità in modo coerente e riproducibile, riducendo al massimo il margine di arbitrarietà
nell’annotazione del testo.
Questi desiderata hanno trovato soddisfazione nell’architettura globale dello schema di
annotazione della Treebank di SI-TAL come segue:
•
i requisiti di usabilità e compatibilità sono stati interpretati in termini di (inter)traducibilità dello
schema della Treebank negli schemi di annotazione dei sistemi che ne faranno uso; in
particolare questi hanno portato a:
• un’annotazione sintattica distribuita su più livelli (a costituenti e funzionale) indipendenti
ma correlabili nella misura in cui è possibile costruire una funzione di proiezione dall’uno
all’altro;
• per ogni livello, una fattorizzazione dell’informazione linguistica in varie dimensioni;
•
i requisiti di coerenza e convergenza dell’annotazione inter-livello hanno trovato risposta nel
ridurre ai minimi termini possibili ridondanze dell’annotazione: un dato tipo di informazione
sintattica viene specificato solo una volta, al livello di annotazione identificato come
appropriato;
•
i requisiti di coerenza e riproducibilità dell’annotazione intra-livello hanno imposto di:
• fornire criteri di annotazione precisi e di ampia copertura;
• ridurre al massimo decisioni arbitrarie, ovvero annotare casi di incertezza nell’assegnazione
di una data categoria, tratto, relazione di dipendenza o senso mediante analisi
sottospecificate;
•
infine, l’applicabilità sia alla lingua scritta sia al parlato trova una risposta nell’indipendenza dei
livelli di annotazione; vengono creati così i presupposti per possibili sinergie con il tema
“Dialoghi annotati”.
Il componente Treebank comprende anche lo sviluppo di un software per la creazione,
validazione e gestione del corpus annotato.
In questo capitolo le caratteristiche della Treebank sintattico-semantica della lingua italiana sono
illustrate in dettaglio. Nella sezione 2, sono brevemente illustrate le caratteristiche del corpus
selezionato per l’annotazione. Nella sezione 3, sono riportati i risultati della valutazione comparata
di corpora annotati ai livelli sintattico e semantico per diverse lingue. Seguono le specifiche di
annotazione, dettagliate nella sezione 4 a sua volta articolata in diverse sottosezioni, ciascuna
dedicata ad un livello di annotazione specifico: l’annotazione sintattica è descritta nelle sezioni 4.1
e 4.2 (l’annotazione a costituenti in 4.1.1 e l’annotazione funzionale in 4.1.2), mentre l’annotazione
semantica nella sezione 4.3. La metodologia che intendiamo seguire per procedere all’annotazione è
illustrata nella sezione 5. Seguono infine le specifiche delle funzionalità del software di annotazione
D-7
Linea 1.1 - Treebank sintattico-semantica dell'italiano
e browsing della Treebank (sezione 6) ed una descrizione della metodologia di valutazione che si
intende adottare (sezione 7). Sono infine accluse due appendici, volte ad integrare le informazioni
fornite nel documento. In particolare, esse riguardano: il tagset per l’annotazione morfo-sintattica
(Appendice 1) e uno studio comparativo di diverse pratiche di annotazione sintattica a costituenti
rapportate allo schema di annotazione a costituenti proposto nell’ambito di SI-TAL (Appendice 2).
2 Il corpus della Treebank di SI-TAL
2.1
Composizione del corpus
Il corpus della Treebank di SI-TAL è suddiviso in due partizioni:
1. corpus “bilanciato”, costituito da una selezione di diversi tipi di testi italiani;
2. corpus specializzato, costituito da testi appartenenti al dominio economico-finanziario. Tra i
fattori determinanti la scelta del dominio va annoverato il fatto che la partizione specialistica
di ItalWordNet, che rappresenta la risorsa lessicale di riferimento per quanto riguarda
l’annotazione semantico-lessicale, riguarda appunto il dominio economico-finanziario.
Come punto di partenza è stato selezionato il corpus di italiano sviluppato nell’ambito del
progetto europeo PAROLE (LE-4017) il cui fine, per quanto riguarda i corpora, era quello di
produrre e mettere a disposizione della comunità scientifica e industriale un insieme di corpora di
riferimento per le principali lingue europee costruiti secondo specifiche comuni riguardo alla
composizione, alla codifica e all’annotazione linguistica. In particolare, si è deciso di partire dalla
porzione del corpus di PAROLE corredata di annotazione morfo-sintattica rivista manualmente, che
è costituita da circa 250.000 parole (tokens) suddivise in:
•
articoli estratti dai quotidiani:
•
•
•
•
Il Sole-24 Ore: tutti gli articoli del 25/5/1994
La Repubblica: tutti gli articoli del 15/7/1995
Il Corriere della Sera: tutti gli articoli del 7/8/1995
articoli estratti da periodici usciti nell’anno 1988, che coprono una varia tipologia di soggetti
e argomenti, con una media di circa 2 articoli per testata:
•
•
•
•
•
•
•
•
•
Casaviva
Centocose
Epoca
Espansione
Grazia
Panorama
Starbene
Storia Illustrata
Zerouno
Per raggiungere il totale richiesto, ovvero 300.000 parole, al corpus annotato di PAROLE è stato
affiancato un altro corpus di circa 50.000 parole costruito nell’ambito del progetto ELSNET
(Corazzari e Monachini 1995), con articoli tratti dal quotidiano La Repubblica, selezionati come
D-8
Linea 1.1 - Treebank sintattico-semantica dell'italiano
rappresentativi di soggetti vari (politica, cultura, economia, sport, ecc.) e che spaziano tra gli anni
1985 e 1988. Anche in questo caso si tratta di un corpus morfo-sintatticamente taggato.
La porzione specialistica del corpus della Treebank di SI-TAL è costituita dagli articoli estratti
da Il Sole-24 Ore, per un totale di circa 80.000 parole (“tokens”). La rimanente parte, per un totale
di circa 220.000 parole, costituisce il corpus “bilanciato”.
I testi sopra menzionati sono codificati in formato SGML e contengono indicazione
dell’organizzazione macro-testuale (ovvero, titolo, didascalia, sottotitolo, corpo del testo, ecc.); per
maggiori dettagli sulla codifica del testo si rinvia a Goggi et al. 1997. Al fine dell’inserimento di
questi testi nella Treebank di SI-TAL, è richiesta una conversione di formato da SGML a XML che
verrà effettuata nella fase iniziale della linea 1.2, prima di procedere alla fase di annotazione vera e
propria.
2.2
Annotazione morfo-sintattica
Entrambi i corpora selezionati come punto di partenza sono corredati di annotazione morfosintattica con indicazione del lemma di appartenenza.
L’annotazione è stata effettuata automaticamente, mediante il Pi-Tagger (Picchi 1994), il
componente del Pi-System per l’annotazione morfo-sintattica, basato su due sottocomponenenti,
ovvero Pi-Morpho (morfologia dell’italiano) e il DMI (Dizionario Macchina dell’Italiano). Il PiTagger assegna ad ogni occorrenza di una parola nel testo tutte le possibili interpretazioni, con
indicazione del relativo lemma. La selezione tra le possibili interpretazioni di quella appropriata al
contesto specifico viene effettuata da una procedura statistica che seleziona l’interpretazione più
probabile nel contesto, con una percentuale di successo del 97%. L’output del Pi-Tagger è stato poi
rivisto manualmente da due linguisti che, per mezzo di una procedura di verifica e correzione,
hanno verificato la correttezza delle etichette e dei lemmi selezionati e, ove necessario, hanno
apportato le necessarie correzioni.
Il tagset usato per l’annotazione morfo-sintattica è quello sviluppato presso l’Istituto di
Linguistica Computazionale (Monachini 1995) e adottato nell’ambito del progetto PAROLE con le
dovute modifiche di formato di rappresentazione (Goggi et al. 1997), ed è conforme agli standard
esistenti per quanto riguarda questo livello di annotazione (ovvero EAGLES, si veda Monachini
1996). Sul versante specifico del progetto, va poi menzionato il fatto che si tratta dello stesso
schema di annotazione adottato, con le modifiche necessarie all’annotazione del parlato,
nell’ambito del tema “Dialoghi Annotati”: questo costituisce un importante punto di contatto tra i
due temi del progetto e crea i presupposti, negli usi futuri di SI-TAL, per la comparabilità e
l’integrabilità delle risorse sviluppate.
Diamo qui di seguito alcuni cenni sul formato di annotazione: per le specifiche complete dello
schema di annotazione morfo-sintattica si rinvia alla sezione 3.2 del Capitolo 5 relativo al tema
“Dialoghi Annotati”, riportata in appendice a questo documento per convenienza del lettore. Il
formato di annotazione consiste in una stringa di caratteri che viene associata ad ogni parola del
testo. Prima di tutto viene indicato il lemma, separato dal resto dal carattere #. Segue l’informazione
morfo-sintattica relativa alla forma: ogni carattere alfabetico della stringa che segue rappresenta il
valore di un attributo; ogni attributo ha una posizione fissa e predefinita all’interno della stringa. La
stringa di annotazione si suddivide in due parti, separate dal carattere @. La parte che precede @
contiene indicazione della categoria morfo-sintattica, marcata da una lettera maiuscola secondo la
tipologia che segue:
D-9
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Nomi (S)
Verbi (V)
Aggettivi (A)
Pronomi (P)
Predeterminatori (T)
Determinatori (D)
Articoli (R)
Avverbi (B)
Preposizioni (E)
Congiunzioni (C)
Numerali (N)
Interiezioni (I)
Punteggiatura (@@)
Abbreviazioni (SA)
Classe Residua (X)
Segue, dopo il carattere @, l’indicazione dei tratti morfo-sintattici relativi al genere, numero,
tempo, modo, persona, ecc., anch’essi espressi in lettere maiuscole. Per la tipologia dei tratti morfosintattici si rinvia all’Appendice 1 di questo documento.
Il testo morfo-sintatticamente taggato della Treebank di SI-TAL apparirà dunque come segue:
La IL#RD@FS
Mondadori MONDADORI#SP@NN
ha AVERE#V@S3IP
annunciato ANNUNCIARE#V@MSPR
che CHE#CS@
il IL#RD@MS
prossimo PROSSIMO#A@MS
26 26# N@
ottobre OTTOBRE#S@MS
uscira’ USCIRE#V@S3IF
in IN#E@
contemporanea CONTEMPORANEO#S@FS
mondiale MONDIALE#A@NS
il IL#RD@MS
primo PRIMO#NO@MS
libro LIBRO#S@MS
scritto SCRIVERE#V@MSPR
dalla DA#E@FS
suora SUORA#S@FS
albanese ALBANESE#A@NS
. .# @
L’annotazione morfo-sintattica del testo conterrà anche indicazione di eventuali espressioni
polilessicali (o multi-word expressions) presenti nel testo. A questo livello di base, al quale fanno
riferimento tutti i livelli di annotazione della Treebank, saranno annotate espressioni del tipo
ad_hoc, al_di_là, alla_spicciolata, allo_scoperto, all’_impazzata, a_disposizione che sono da
trattarsi come espressioni polilessicali sia a livello sintattico che semantico. Vi saranno altri casi,
come ad esempio avere un’idea, fare soldi, fare esperienza, avere familiarità che verranno trattati
in termini di espressioni polilessicali solo al livello semantico (per maggiori dettagli si rinvia alla
sezione 4.3.2.2).
D-10
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A livello morfo-sintattico saranno trattate come espressioni polilessicali:
a) espressioni caratterizzate da invariabilità e fissità della forma come alla_spicciolata,
allo_scoperto, all’_impazzata oppure espressioni che mostrano un ristretto e controllato
range di variazione come a_disposizione che permette solo l’inserimento di un aggettivo
possessivo tra la preposizione e il nome (es. a vostra disposizione);
b) espressioni non analizzabili sintatticamente come le frasi libere, ad esempio ad_hoc e
al_di_là contenenti termini non italiani (la prima) oppure caratterizzate da sequenze di
categorie morfo-sintattiche non previste dalla grammatica italiana (ad esempio prep-prepavverbio nel caso di al_di_là).
La definizione dei criteri di identificazione delle espressioni polilessicali del livello morfosintattico sarà condotta nel primo periodo della linea 1.2, prima dell’inizio dell’annotazione vera e
propria.
3 Analisi e confronto di modelli di annotazione esistenti: risultati
Lo scopo di questa sezione è quello di fornire informazione di background alle specifiche di
annotazione che saranno seguite nella costruzione della Treebank di SI-TAL e dettagliate nella
sezione 4 di questo Capitolo. La sezione 3.1 riguarda l’annotazione sintattica (a costituenti e
funzionale) mentre la sezione 3.2 quella semantico-lessicale.
3.1
Annotazione sintattica
3.1.1 Schemi di annotazione considerati
Per quanto riguarda l’annotazione sintattica, l’analisi ed il confronto di modelli di annotazione
esistenti hanno riguardato sia quelli effettivamente adottati nella costruzione di Treebanks per
diverse lingue, sia le raccomandazioni emerse nell’ambito di iniziative di standardizzazione (in
particolare i risultati del gruppo EAGLES sulla Annotazione Sintattica), sia le proposte avanzate
nell’ambito di progetti europei quali SPARKLE (LE-2111) per i livelli di annotazione sintattica a
costituenti e funzionale, e MATE (Telematics Project LE4–8370) ed ELSE (LE4-8340) solo per il
livello funzionale.
3.1.2 Schemi di annotazione: parametri di confronto
Le differenze e le comunalità tra i diversi schemi di annotazione sintattica effettivamente adottati
per la costruzione di Treebanks sono stati oggetto di diversi studi condotti nell’ambito di progetti
europei per la costruzione di corpora e per la definizione di standards. Citiamo qui il lavoro svolto
nell’ambito del progetto NERC (Network of European Reference Corpora), i cui risultati per quanto
riguarda l’annotazione sintattica sono riportati in Montemagni (1992) e Calzolari et al. 1995, ed i
più recenti sforzi di standardizzazione svolti nell’ambito del progetto EAGLES, i cui risultati sono
descritti in Leech, Barnett e Kahrel (1996).
Mentre per una panoramica delle diverse pratiche di annotazione sintattica si rinvia alla
letteratura indicata sopra, forniremo in questa sede parametri di classificazione degli schemi di
annotazione sintattica in modo da poter situare la risorsa Treebank di SI-TAL nell’ambito del
panorama più generale dei corpora annotati. Quindi, a questo livello il confronto ha riguardato in
D-11
Linea 1.1 - Treebank sintattico-semantica dell'italiano
modo particolare il tipo di approccio sottostante le varie imprese che ha a sua volta grosse
implicazioni per quanto riguarda i possibili usi di cui le risorse sviluppate si rendono suscettibili.
Per la classificazione degli schemi di annotazione sintattica sono stati identificati i seguenti
parametri, illustrati in dettaglio in Montemagni (1992):
•
rappresentazione monostratale vs multistratale (mono/multi);
•
rappresentazione a costituenti vs rappresentazione a dipendenze (cost/dip);
•
etichettatura categoriale vs funzionale (cat/funz);
•
rappresentazione dell’ambiguità (+/-amb);
•
rappresentazioni sottospecificate (+/-sottospec);
•
rappresentazione minimale (+/-min);
•
profondità di incassamento nelle rappresentazioni (solo per schemi a costituenza) (+/prof).
I corpora annotati presi in considerazione sono stati i seguenti:
N°
1
2
3
4
5
6
7
8
9
10
11
12
Corpus annotato
Nijmegen Corpus
(Nijm)
International Corpus of English
(ICE)
Lancaster-Leeds Treebank
(LaLe)
LOB Corpus Treebank
(LOB)
Lancaster/IBM treebank 1987
(La87)
Susanne Corpus
(Su)
Penn Treebank I e II
(Penn)
Bank of English
(Constraint Grammar)
(BECG)
Spanish Treebank – Universidad
Autonoma de Madrid
(ST)
The Prague dependency Treebank
(PDT)
German newspaper corpus
(NEGRA)
HPSG treebank for Polish
(POL)
D-12
Lingua
inglese
Riferimenti bibliografici
Van Halteren 1997
inglese
Greenbaum 1996
inglese
Sampson 1987
inglese
Leech & Garside
1991
inglese
Leech & Garside
1991
inglese
Sampson 1995
inglese
Marcus et al. 1993, 1994
inglese
Karlsson et al. 1995
spagnolo
Sandoval et al. 1999
ceco
Bémová et al. 1999
tedesco
Thorsten et al. 1999
polacco
Marciniak et al. 1999
Linea 1.1 - Treebank sintattico-semantica dell'italiano
I parametri sopra indicati (righe) sono stati applicati ai corpora selezionati (colonne) ottenendo la
classificazione sintetizzata nella tabella che segue:
Mono
Multi
1
(+)
(-)
2
(+)
(-)
3
+
-
4
+
-
5
(+)
(-)
6
+
7
+
8
+
-
9
+
-
10
+
11
+
-
12
+
-
Cost
Dip
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
+
-
+
+
+
+
-
Cat
Funz
+
+
+
+
+
-
+
-
+
-
+
+
+
-
+
+
+
+
+
+
+
+
+/-Amb
+
(+)
?
?
?
?
+
+
+
?
+
?
+/-Sottospec
+
(+)
+
?
?
?
+
+
?
+
?
+/-Min
-
-
-
-
-
-
+
-
-
-
+/-Prof
-
-
-
-
+
-
-
-
-
-
dove il valore + indica che il tratto considerato è presente nello schema di annotazione considerato,
mentre – ne indica l’assenza. Nel caso uno dei due valori sopra sia riportato tra parentesi, ciò indica
che l’informazione è stata inferita dall’analisi di campioni di testo annotato. Il punto interrogativo
indica che non si è trovata alcuna indicazione in relazione al parametro considerato. Infine, la cella
vuota indica che il parametro in considerazione non si applica allo schema di annotazione
corrispondente.
3.1.3 La Treebank sintattica di SI-TAL nel panorama dei corpora annotati
La Treebank sintattica di SI-TAL si colloca nel panorama dei corpora annotati come segue:
•
adotta una rappresentazione sintattica di tipo monostratale;
•
combina, mediante la sua articolazione interna in due livelli di descrizione distinti, una
rappresentazione a costituenti con una rappresentazione basata sulle dipendenze;
•
conseguentemente alla sua articolazione in due livelli, combina un’etichettatura
categoriale (nella rappresentazione a costituenti) con una funzionale (nella
rappresentazione funzionale);
•
permette la rappresentazione di ambiguità per entrambi i livelli di rappresentazione;
•
per quanto riguarda il livello di annotazione funzionale, prevede rappresentazioni
sottospecificate;
•
per quanto riguarda il livello di annotazione a costituenti, sono adottate rappresentazioni
piatte.
D-13
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Nella sezione 4.1 di questo capitolo verranno illustrate in dettaglio le modalità secondo le quali
questi parametri si combinano ed interagiscono nell’ambito dello schema di annotazione sintattica
della Treebank di SI-TAL.
Nel caso dell’annotazione sintattica a costituenti, le specifiche di annotazione elaborate per la
Treebank di SI-TAL sono state anche oggetto di un dettagliato confronto con le specifiche relative
ad una selezione di Treebanks a costituenti sviluppate per la lingua inglese (il Susanne Corpus
(Sampson 1995) e la Penn Treebank (Marcus et al. 1993, 1994)) e per lo spagnolo (la Spanish
Treebank sviluppata presso la Universidad Autonoma de Madrid, Sandoval et al. 1999). Il confronto
si è incentrato sulla tipologia di costituenti sintattici e sul trattamento di particolari costruzioni
sintattiche; i risultati di questo studio sono riportati in appendice a questo capitolo (Appendice 2) in
quanto presuppongono già una conoscenza dettagliata dello schema di annotazione proposto per SITAL.
3.2
Annotazione semantico-lessicale
Nell’approccio messo a punto per l’annotazione a livello semantico-lessicale, sono confluite
varie esperienze maturate in progetti a carattere sperimentale quali ROMANSEVAL/SENSEVAL e
ELSNET, e l’esperienza dell’Università di Princeton per la creazione di un corpus annotato della
lingua inglese SEMCOR (Semantic concordances, Landes et al. 1998).
ROMANSEVAL/SENSEVAL (1998-99) è un progetto internazionale di annotazione semanticolessicale sia in forma manuale che automatica di un insieme predefinito di nomi, verbi e aggettivi
(Calzolari e Corazzari, in corso di pubblicazione). L’aspetto innovativo di questa iniziativa è il
carattere multilingue e, pertanto, la scelta di un corpus e di un insieme di lemmi che consentisse il
confronto dei risultati dell’annotazione effettuata in siti diversi e su lingue diverse. Il progetto aveva
lo scopo di valutare i risultati dell’annotazione in termini di convergenza vs. divergenza tra:
-
annotazione di categorie sintattiche diverse;
-
annotatori umani diversi;
-
sistemi automatici di annotazione diversi;
-
annotatori umani e sistemi automatici;
-
annotazione di gruppi nazionali diversi.
Il progetto di annotazione semantico-lessicale condotto nell’ambito di ELSNET (1998-99) è
consistito nell’annotazione parziale di un testo ristretta a un set predefinito di verbi che sono stati
annotati insieme alle teste dei loro argomenti (Corazzari et al. 1999). Esso prevedeva sia la
disambiguazione del senso, cioè l’assegnazione di un numero di senso derivato da una risorsa
lessicale di riferimento, che la disambiguazione semantica in senso stretto, cioè l’assegnazione di un
tipo/concetto semantico alle parole da annotare. Tra gli scopi di ELSNET c’era lo studio della
sottocategorizzazione dei verbi in termini semantici , dell’influenza del senso del verbo su quello
dei suoi argomenti e viceversa e la valutazione del livello di copertura dei tipi semantici utilizzati e
del lessico computazionale.
Oltre a queste esperienze di carattere sperimentale nelle quali l’Istituto di Linguistica
Computazionale ha preso direttamente parte, nel corso della definizione delle specifiche relative al
livello semantico-lessicale si è fatto spesso riferimento ai materiali e alla documentazione
D-14
Linea 1.1 - Treebank sintattico-semantica dell'italiano
disponibile su internet (http://www.cogsci.princeton.edu/ ∼wn/doc/man/semcor.htm) relativa
all’esperienza di annotazione semantico-lessicale dell’Università di Princeton di un frammento del
Brown Corpus e del testo letterario ‘The Red Badge of Courage’ di S. Crane (il cosiddetto SEMCOR
da ‘semantic concordances’ illustrato in Landes et al., 1998). Tale progetto appare il più vicino al
nostro sia per le dimensioni del corpus annotato che per il metodo e le risorse lessicali utilizzate.
SEMCOR è un corpus e un lessico computazionale perfettamente integrati in modo tale che ogni
parola piena del corpus è collegata al suo senso appropriato nel lessico.
Nello schema che segue si riassumono gli elementi di contatto e le differenze maggiori tra questi
progetti di annotazione semantico-lessicale:
Progetto
Corpus annotato
Romanseval/ all’interno di un corpus di
frasi sono state annotate le
Senseval
parole (nomi, verbi e
aggettivi) selezionate per la
campagna di valutazione
Elsnet
all’interno di un corpus di
frasi sono stati annotati
nuclei predicato-argomenti
(l’annotazione ha riguardato
i predicati e le teste dei loro
argomenti)
SEMCOR
testo continuo
Risorsa lessicale
dizionario cartaceo
Tratti
numero di senso
Metodo
Manuale
senso derivato dal
lessico computazionali
di EuroWordNet (EWN)
per l’italiano (Alonge et
al. 1999); tipo semantico
derivato dal lessico
computazionale di
SIMPLE (Lenci et al.
1998)
lessico computazionali
di WordNet per l’inglese
numero di senso
e tratti di tipo
semantico
Manuale
numero di senso Manuale
e tratti di tipo
assistito
semantico (per la
segnalazione di
usi figurati) e
relativi
all’annotazione
Un’altra esperienza di lavoro che ha guidato la definizione delle specifiche, anche se in modo
parziale, è costituita dal progetto europeo DELIS (Monachini et al. 1994). Tale progetto era
focalizzato sullo studio, a partire dal corpus, dell’interazione delle caratteristiche sintattiche e
semantiche (patterns sintattici e sensi) di alcune classi semantiche di verbi e nomi derivati (es. verbi
di percezione, di movimento ecc.). DELIS, attraverso lo studio degli aspetti formali, sintattici che
caratterizzano i sensi, ha fornito una batteria di criteri per l’identificazione di sensi diversi (vedi
sezione 5.2 di questo Capitolo sulla metodologia di annotazione).
4 Schema di annotazione
4.1
Specifiche di annotazione per il livello sintattico
Nell’ambito del progetto TAL, la Treebank sintattico-semantica della lingua italiana prevede due
livelli di annotazione sintattica:
D-15
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
annotazione a livello di struttura a costituenti (basata sull’identificazione di elementi quali
‘sintagmi nominali’, ‘sintagmi verbali’, ‘sintagmi preposizionali’ e relative relazioni
sintagmatiche);
•
annotazione a livello funzionale (basata sulla definizione di relazioni grammaticali quali
‘soggetto’, ‘oggetto’, ecc.).
In questa sezione verranno fornite le specifiche relative a questi due livelli di annotazione
sintattica. Si partirà da una illustrazione dell’articolazione interna dello schema di annotazione
sintattica (sezione 4.1.1) e delle linee guida che ne hanno guidato la definizione (sezione 4.1.2), per
poi procedere alla definizione delle specifiche di annotazione per il livello a costituenti (sezione
4.1.3) e per il livello funzionale (sezione 4.1.4).
4.1.1
Articolazione interna dello schema di annotazione sintattica
La scelta di un’annotazione sintattica distribuita su due livelli distinti, a costituenti e funzionale,
rappresenta un elemento di novità rispetto ad altre “treebank” costruite o in corso di costruzione per
lingue diverse (che vanno, per menzionarne alcune, dall’inglese al cinese, francese, tedesco,
polacco, portoghese e spagnolo). Queste risorse generalmente prevedono un livello unico per
l’annotazione sintattica, sia esso basato su una rappresentazione a costituenti oppure a dipendenze o
su una combinazione dei due (come nel caso di schemi di annotazione a costituenti in uso presso la
Penn Treebank, International Corpus of English, Nijmegen Corpus che includono anche categorie di
tipo funzionale, si veda la sezione 3.1.2 di questo Capitolo).
L’unica treebank articolata su più livelli per quanto riguarda la sintassi è quella in corso di
costruzione per il Ceco (Bémová et al. 1999) che prevede a) un livello di rappresentazione
“analitica” che annota relazioni di dipendenza di superficie, e b) un livello di rappresentazione
“tectogrammaticale” corrispondente alla struttura profonda della frase (basata su relazioni di tipo
semantico, come Attore, Paziente, Origine, Effetto). Ma mentre il modello sottostante lo schema di
annotazione della Treebank del Ceco è di tipo multistratale, il rapporto tra i due livelli di
annotazione sintattica nella Treebank di SI-TAL si configura diversamente: entrambi si riferiscono
allo stesso livello di rappresentazione, aderendo dunque ad un modello sintattico di tipo
monostratale. I due livelli di annotazione sintattica della Treebank di SI-TAL possono infatti in
qualche modo essere assimilati ai due livelli di descrizione adottati nell’ambito della Lexical
Functional Grammar (LFG, Bresnan 1982), cioè struttura a costituenti e struttura funzionale, che
codificano diversi tipi di informazione ma relativamente allo stesso livello di rappresentazione
(della sintassi di superficie).
I vantaggi di uno schema di annotazione che separa la struttura a costituenti dalla struttura
funzionale sono molti, di ordine teorico e pratico. Innanzitutto, questo schema risulta
particolarmente adeguato in rapporto a lingue come l’italiano che presentano una certa variabilità
nell’ordine dei costituenti frasali. In questo modo la rappresentazione delle funzioni grammaticali,
che vengono così assunte come nozioni primitive, è di esclusiva pertinenza del livello di
annotazione funzionale, mentre la rappresentazione a costituenti descrive la frase nei termini della
sua struttura sintagmatica (definita dai costituenti sintattici e dalle loro relazioni di dominanza e di
precedenza). Questo ha come conseguenza non indifferente che il livello di annotazione a
costituenti può essere liberato dalla necessità di usare tracce e indici per la rappresentazione di
“movimenti” di vario tipo (per il trattamento del passivo, delle dislocazioni, di soggetti postverbali
così come di costruzioni interrogative e relative) e costituenti vuoti per soggetti impliciti (in
costruzioni a controllo e a sollevamento) ed ellittici. Costruzioni tipicamente trattate in uno schema
D-16
Linea 1.1 - Treebank sintattico-semantica dell'italiano
a costituenti mediante tracce e costituenti vuoti possono essere qui più efficacemente rappresentate
a livello funzionale, in termini di relazioni di dipendenza.
Ma l’adeguatezza rispetto alle peculiarità linguistiche dell’italiano non costituisce l’unico
vantaggio di una annotazione distribuita su più livelli. Infatti uno schema di annotazione di questo
tipo risulta vantaggioso anche per altri motivi:
•
è compatibile con diversi quadri teorici: le annotazioni proposte per i due livelli di annotazione
sono comparabili con un ampio spettro di schemi di annotazione sintattica, basati su un’analisi a
costituenti oppure su un’analisi funzionale, sia adottati nell’ambito di teorie grammaticali sia in
uso nell’ambito di sistemi applicativi di elaborazione del linguaggio naturale;
•
si presta ad essere applicabile, anche se con modalità diverse, sia alla lingua scritta sia a quella
parlata. Progetti sull’annotazione del parlato, come ad esempio MATE (1998), hanno messo in
evidenza che una rappresentazione a costituenti risulta difficoltosa nel caso del parlato,
caratterizzato dalla presenza massiccia di ellissi, anacoluti, e fenomeni di disfluenza di vario
tipo. Questa difficoltà di applicazione non si ripropone a livello di annotazione funzionale, che
astrae maggiormente dalla realizzazione superficiale della frase. Ne consegue che il livello di
annotazione funzionale, quando dissociato da una rappresentazione a costituenti, costituisce un
potenziale terreno di incontro e confronto tra testi annotati di lingua scritta e parlata. La
Treebank di SI-TAL, come concepita ad oggi, è circoscritta a testi di lingua scritta: è comunque
importante che nella fase delle specifiche dello schema di annotazione se ne preveda
l’applicazione anche a trascrizioni di parlato (ciò potrà certamente richiedere revisioni ed
integrazioni dello schema per il trattamento di fenomeni tipici del parlato). Questo crea anche i
presupposti per possibili sinergie con il tema “Dialoghi annotati per applicazioni di interfacce
vocali avanzate”.
4.1.2
Strategie di base per l’annotazione
Perché un’annotazione distribuita del tipo descritto sopra sia veramente utile ed efficace per
quanto riguarda l’uso della risorsa finale, va garantita una coerenza nell’annotazione sia tra diversi
livelli sia all’interno dello stesso livello.
La coerenza e la convergenza dell’annotazione tra i due livelli può essere innanzitutto garantita
riducendo al massimo possibili ridondanze nello schema di annotazione proposto: un dato tipo di
informazione sintattica deve essere specificato solo una volta, al livello di annotazione definito
come appropriato. Ad esempio, le relazioni funzionali sono definite solo al livello funzionale; da ciò
consegue che ogni dispositivo formale, come ad esempio le tracce, usato in una rappresentazione a
costituenti per codificare informazione funzionale è escluso dallo schema di annotazione a
costituenti usato nell’ambito di SI-TAL.
In quest’ottica, i due livelli di rappresentazione, a costituenti e funzionale, ricevono definizioni
indipendenti l’uno dall’altro, nel senso che non devono semplicemente riproporre gli stessi elementi
di informazione, seppur in termini diversi. Nel caso specifico, la rappresentazione funzionale
dovrebbe avere una sua caratterizzazione specifica, per poter essere utilizzata, ad esempio, anche
per una trasduzione semantica, cosa che non è sempre possibile a partire da una rappresentazione a
costituenti.
In ogni caso, i due livelli di rappresentazione sintattica, anche se definiti in modo indipendente
l’uno dall’altro, dovranno essere allineati mediante sistematiche relazioni di corrispondenza, per
garantire la convergenza delle analisi ai due livelli e renderne anche possibile l’integrazione.
D-17
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Per quanto riguarda la coerenza interna del singolo livello di annotazione, è raccomandabile
ridurre al massimo decisioni arbitrarie nella selezione dell’annotazione: quando vi sia incertezza
nell’assegnazione di una data categoria, tratto o relazione di dipendenza, dovrebbe essere possibile
ricorrere ad analisi sottospecificate. Ciò richiede che gli schemi di annotazione proposti includano,
ove opportuno e possibile, categorie sottospecificate. Il ricorso ad analisi sottospecificate sarà
comunque da attuarsi solo nei casi strettamente necessari, ovvero quando una analisi più dettagliata
comporti una decisione arbitraria. La sottospecificazione non è da considerarsi una strategia
generale di annotazione: in questo modo la Treebank verrebbe a perdere la sua funzione primaria,
quella di fornire informazioni utili per l’analisi sintattica del corpus annotato.
Un altro aspetto da tenere presente nella definizione dell’annotazione da associare alle varie
costruzioni sintattiche ai singoli livelli riguarda la compatibilità con un ampio spettro di analisi
adottate in ambito sia teorico sia di sistemi di trattamento automatico del linguaggio. In particolare,
per le costruzioni che nella letteratura ricevono trattamenti differenziati si è preferito fornire
rappresentazioni meno impegnative da un punto di vista teorico ma proiettabili sul maggior numero
possibile di analisi.
I criteri brevemente enunciati sopra hanno guidato la definizione degli schemi di annotazione per
i due livelli e le loro relazioni:
•
l’informazione da codificare è stata distribuita tra i due livelli evitando, per quanto possibile,
ridondanze nell’annotazione;
•
i due livelli di rappresentazione sintattica, a costituenti e funzionale, sono stati definiti
indipendentemente l’uno dall’altro, ma le relazioni di corrispondenza tra i due sono state
accuratamente definite;
•
ove opportuno e possibile, sono state previste strategie di sottospecificazione per ridurre
potenziali incoerenze derivanti da annotazioni basate su scelte arbitrarie;
•
per costruzioni oggetto di controversia nella letteratura si è cercato, per quanto possibile, di
proporre un’analisi che costituisse il punto di convergenza tra diverse interpretazioni.
4.1.3 Specifiche di annotazione per il livello sintattico a costituenti
In questa sezione forniremo le specifiche di annotazione per il livello sintattico a costituenti. In
particolare, si partirà dai fondamenti teorici che hanno ispirato la definizione dello schema (sezione
4.1.3.1) per giungere ad una dettagliata descrizione e classificazione dei costituenti sintattici
(sezioni 4.1.3.2 e 4.1.3.3) ed i relativi criteri di annotazione (sezione 4.1.3.4).
4.1.3.1 Teoria X-barra e costituenza sintattica
Schematicamente, la teoria X-barra (Chomsky 1986) prevede una organizzazione a teste e
proiezioni di teste ognuna delle quali dotata di una barra, in ordine gerarchico: per cui, il nodo da
cui pende la testa è denotato da 0 e i successivi nodi dominanti hanno una barra, due barre e
eventuali ulteriori barre - anche se due barre sono di solito il massimo livello di proiezione.
L’organizzione gerarchica della teoria prevede le seguenti regole astratte di riscrittura:
Schema teorico regole X-barra
D-18
Linea 1.1 - Treebank sintattico-semantica dell'italiano
CP --> Spec(Costituenti Dislocati), Cbarra
Cbarra --> C0, IP
IP --> Spec (SN<SOGGetto>), Ibarra
Ibarra --> I0, Complementi
C0 --> Complementatore
I0 --> Verbo flesso a tempo finito
4.1.3.2 Costituenti sintattici nello schema di annotazione di SI-TAL
Nella definizione dello schema di annotazione della Treebank di SI-TAL non adotteremo
integralmente la teoria X-barra e i nomi che da essa derivano: nel dettaglio, utilizzeremo lo schema
generale e le etichette IBAR e CP. Per il resto utilizzeremo sempre etichette di costituenti sintattici
all’italiana: S(intagma) e non P(hrase) per non provocare confusione, ad esclusione di CP che
manterremo nella forma originale all’inglese.
Le etichette adottate sono commentate nel dettaglio in quanto segue. Presentiamo qui in basso
l’organizzazione astratta della nostra rappresentazione sintattica per il livello di frase, con le
modifiche che introdurremo per la Treebank dell’italiano. E’ importante ricordare che la stessa
organizzazione si potrebbe applicare anche agli altri costituenti maggiori con teste semantiche –
sintagma aggettivale (SA), sintagma nominale (SN), sintagma preposizionale (SP) ecc. -, ma poiché
questi non posseggono argomenti obbligatori, questi verranno posti sullo stesso livello degli
aggiunti e seguiranno quindi tutti la testa nell’ordine lineare in cui verranno analizzati in superficie.
Come detto più sopra, per il livello di frase utilizzeremo CP, per contenere i costituenti Dislocati
o semplicemente Anteposti e eventuali Aggiunti, frasali e non. Per il resto utilizzeremo Ibarra come
previsto nella teoria - che chiameremo IBAR, per riscrivere il verbo flesso; e il costituente
Complementi che contiene i complementi, che chiameremo COMP seguito da T/C/IN per indicare
la specializzazione per un tipo di sottocategorizzazione, dove T sta per transitivo, C per copulativo e
IN per intransitivo. Invece di IP utilizzeremo F, e questo nodo verrà dominato da nodi di F
specializzati. Lo schema adottato nella Treebank di SI-TAL risulta essere dunque come segue:
CP --> (Aggiunti), Spec(Costituenti Dislocati), Cbarra
Cbarra --> FC/FS/FInt, F
F --> Spec (SN<SOGGetto>), IBAR, Complementi, (Aggiunti)
IBAR --> (Neg, Clitici),VerboFlesso (semplice o complesso) con Avverbiali eventuali
Complementi --> COMPT/ COMPC/COMPIN
Per quanto riguarda poi la questione dei tratti di accordo, ci baseremo su suggerimenti della LFG
che prevedono nessun accordo verbale nella rappresentazione, ma tutti i tratti nei SN, che nel nostro
caso sono quelli del livello morfo-sintattico. Riportiamo qui in basso esempi di strutture per i vari
costituenti maggiori allo scopo di mostrare l’organizzazione dei componenti sulla base dello schema
X-barra. Come si potrà notare, la testa è sempre l’ultimo elemento che precede i complementi e/o
gli aggiunti, ed è a sua volta preceduta da eventuali costituenti minori che costituiscono il contenuto
di SPECificatore, nodo che non riportiamo per non appesantire la rappresentazione stessa.
Ogni paragrafo che segue tratterà ciascun costituente sintattico separatamente mettendo in
grassetto l’elemento testa di ciascun costituente preso in considerazione. Si noti che l’indicazione
della testa non è parte integrante dello schema di annotazione proposto ma viene inclusa negli
esempi di annotazione che seguono per facilitarne la lettura e l’interpretazione. Va inoltre fatto
presente che le etichette morfo-sintattiche riportate negli esempi che seguono non sono quelle
dell’annotazione morfo-sintattica illustrata nella sezione 2.2 e nell’Appendice 1; di nuovo, abbiamo
D-19
Linea 1.1 - Treebank sintattico-semantica dell'italiano
voluto facilitare la comprensione delle annotazioni ricorrendo ad etichette che contengono un
maggiore dettaglio di informazione, ad esempio la sottocategorizzazione del verbo, e rendono
dunque conto della selezione di alcune delle categorie sintattiche selezionate. All’inizio della linea
1.2 si valuterà se combinarle nell’input su cui l’annotatore andrà ad operare.
Vale la pena notare che non abbiamo una strategia specifica per la codifica dell’ambiguità
intrinseca che in alcuni esempi potrebbe esistere. Poiché stiamo utilizzando frasi decontestualizzate,
segnamo provvisoriamente tale eventualità con i segni “ \\”. Se nei testi reali troveremo situazioni di
questo genere decideremo successivamente come intervenire. Un esempio di ambiguità è il
seguente:
Io non mangio panini con la mortadella.
f-[sn-[pron-io], ibar-[neg-non, vt-mangio], compt-[
sn-[n-panini], sp-[p-con, sn-[art-la, n-mortadella]]]]
\\
sn-[n-panini, sp-[p-con, sn-[art-la, n-mortadella]]]]]
4.1.3.2.1
F
Con questo simbolo si intende una frase semplice con un predicato principale e complementi che
possono anche includere altre frasi. Sono anche considerate frasi semplici le frasi ellittiche.
f-[sn-[npro-Gullit],
ibar-[ausa-ha, vppt-dichiarato],
compt-[sn-[n-guerra], sp-[part-alla, sn-[n-stampa], sa-[ag-sportiva]]]]
f-[sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]],
ibar-[vt-richiede],
compt-[sn-[n-montagne, spd-[pd-di, sn-[n-soldi]]]]]
f-[sn-[dim-questa, n-casa],
ibar-[clit-si, vt-vende],
compt-[savv-[avv-bene]]]
f-[ibar-[vsup-dobbiamo, viin-vincere], sn-[nt-domenica],
sp-[p-per,
sv2-[vit-interrompere, compt-[sn-[dim-questo, ag-brutto, nt-momento]]]]]
4.1.3.2.2
IBAR
Con questo simbolo viene riscritto il gruppo verbale che può includere al proprio interno gli
ausiliari essere o avere, la negazione, eventuali clitici e avverbi che si possono interporre tra
l’ausiliare e il verbo lessicale. Oltre agli ausiliari fanno parte di questo costituente i modali e i verbi
aspettuali, e anche la forma perifrastica stare per. Analogamente alla Treebank in corso di
costruzione per lo spagnolo (Sandoval et al. 1999), il problema dei verbi cliticizzati con enclitica è
stato risolto utilizzando la forma di parola con l’enclitico e ripetendo successivamente il clitico
come parola separata. In questo caso, quindi, il clitico si troverebbe sia all’interno di IBAR che nel
complemento (COMPT/IN/C) dove riceverebbe una interpretazione. Segue una tipologia di
costituenti IBAR:
ibar-[neg-non, vc-ha]
ibar-[ause-è, vc-diventata]
ibar-[ausa-ha, vppt-dichiarato]
D-20
Linea 1.1 - Treebank sintattico-semantica dell'italiano
ibar-[vt-richiede]
ibar-[clit-si, vt-vende]
ibar-[clitdat-le, ausa-ha, vppt-dato]
ibar-[vin-arrivò]
ibar-[ause-è, vppin-arrivata]
ibar-[neg-non, vsup-devono, viin-guardare]
ibar-[ause-è, ausep-stato, vppt-assunto]
ibar-[ause-sono, ausep-stati, avv-spesso, vppt-segnalati]
ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle]
4.1.3.2.3
SN
Il Sintagma Nominale si sviluppa con una serie di specificatori, una testa ed eventuali
complementi o aggiunti. Tra i costituenti specificatori ci sono gli articoli, i quantificatori, i
numerali; sempre prima del nome si trovano gli aggettivi e i possessivi che non ricevono una
propria struttura di costituenza ma vengono semplicemente elencati prima della testa. Gli aggettivi
che seguono la testa del SN sono invece rappresentati nel proprio costituente perché possono avere
a loro volta una struttura interna con complementi ed aggiunti. Sempre all’interno del SN ci sono i
costituenti SPD e gli eventuali complementi frasali nel caso si tratti di un nome fattivo o una forma
polilessicale. Le frasi relative sono tutte incluse nel SN.
Un commento a parte va fatto per i nominali che fungono da modificatori di altri nominali.
Alcuni di questi sono nomi propri i fratelli Karamazov, la commissione Sangalli; altri sono semplici
nomi comuni che hanno una funzione di specificazione, il settore cucine, la politica suicida ecc. In
tutti questi casi non si individua esplicitamente la testa a livello di costituenza, in quanto i due o più
nominali si troverebbero allo stesso livello. Il livello dell’annotazione funzionale fornirà invece
l’indicazione esplicita di quale dei due o più nominali funga da testa del SN, sulla base delle
relazioni grammaticali che il SN intrattiene con il resto della frase. Se ad esempio è un soggetto,
l’accordo verbale servirà ad individuare la testa, ecc.
Vi sono poi casi in cui la testa è una espressione polilessicale o “Multiword”. Segue una
tipologia di costituenti di tipo SN:
sn-[art-La, npro-Bimex]
sn-[art-una, ag-bella, n-ragazza]
sn-[ind-molti, n-libri]
sn-[num-dieci, n-programmatori]
sn-[ag-infondate, n-speculazioni]
sn-[art-il, poss-loro, n-strumento, spd-[pd-di, sn-[n-ricerca]]
sn-[art-un, n-modo, sv2-[pt-di, viin-fare, compt-[sn-[n-soldi], savv-[avvrapidamente]]]]
sn-[art-Il, n-fatturato, sa-[ag-complessivo],
spd-[partd-delle, sn-[n-società],
coord-[sv3-[vppt-controllate], coord-[cong-e],
sv3-[vppt-collegate]]]
sn-[art-’La’, n-credenza,
fac-[pk-che,
f-[sn-[art-la, n-terra],
ibar-[vcir-sia],
compc-[sa-[ag-rotonda]]]]
sn-[art-il, n-ragazzo,
f2-[rel-che, f-[sn-[nh-Maria],
D-21
Linea 1.1 - Treebank sintattico-semantica dell'italiano
ibar-[ausa-ha, vppt-incontrato], savv-[avv-ieri]]]]]
sn-[art-la, ag-cosiddetta, n-commissione, nh-sangalli]
sn-[art-il, n-settore, n-cucine]
sn-[nt-domenica, nt-sera]
4.1.3.2.4
SP
I costituenti SP sono normalmente composti obbligatoriamente da una testa di tipo P
(preposizione) o PART (ovvero preposizione articolata) e da un costituente SN che ne costituisce un
elemento essenziale. Sono trattati come SP anche gli aggiunti infinitivali che quindi dopo la testa
hanno un costituente SV2. Va ricordato che si escludono da questo caso i sintagmi preposizionali
introdotti da di e da, che hanno una marca sintattica specializzata, come chiarito nelle sezioni
4.1.3.2.5 e 4.1.3.2.6.
sp-[part-alla, sn-[n-stampa, sa-[ag-sportiva]]]
sp-[p-senza, sv2-[viin-chiedere]]
sp-[p-dopo, sv2-[vcl-averlo, clitac-lo, vppin-chiesto]]
4.1.3.2.5
SPDA
Il costituente SPDA è costituito da una testa preposizionali di tipo specializzato, il da o le
preposizioni articolate di da, e un SN. Questo costituente può servire da Agente Obliquo nelle frasi
passive, oppure può individuare complementi o circostanziali di vario tipo, tra cui un locativo con
l’indicazione di Origine o Provenienza.
spda-[partda-dalla, sn-[npro-Union_Carbide]]
spda-[partda-dal, sn-[n-casolare]]]]
coord-[spda-[pda-da, sn-[npro-Sting]],
punt-,
sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]],
cong-e,
spda-[partda-dalla, sn-[npro-Nannini]]]]]
4.1.3.2.6
SPD
Il costituente SPD è costituito da una testa preposizionali di tipo specializzato, il di o le
preposizioni articolate di di, e un SN. Questo costituente può servire da complemento verbale, da
aggiunto o complemento nominale e da secondo termine di paragone in una struttura comparativa.
spd-[partd-delle, sn-[n-società]]
spd-[pd-di, sn-[n-ricerca]]
sa-[in-più, ag-intelligente, spd-[pd-di, sn-[np-Europa]]]]]]
4.1.3.2.7
SA
Questo costituente viene creato solo per la posizione predicativa degli aggettivi e può avere una
struttura interna.
sa-[ag-infelice]
sa-[in-più, ag-intelligente, spd-[pd-di, sn-[np-Europa]]]
sa-[agn-inferta, sp-[part-alla, sn-[poss-nostra, n-penisola]]]]
D-22
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.1.3.2.8
SAVV
Questo costituente ha come testa un avverbiale anche in forma locutiva e può avere una struttura
interna.
savv-[avv-bene]
savv-[avvl-alla_spicciolata]
4.1.3.2.9
SV2
Questo costituente ha come testa un verbo all’infinito, che può essere preceduto oppure no da
una particella verbale, limitatamente alle seguenti preposizioni a, di, da. Tutte le altre preposizioni
introducono un SP e contribuiscono all’interpretazione semantica della frase infinitiva che assume
quindi valore di aggiunto. Nel caso invece rappresentato dalle particelle verbali, queste ultime
vengono semplicemente assorbire dalla struttura infinitiva e non contribuiscono all’interpretazione
semantica. In genere, la presenza della particella indica la funzione di complemento dell’infinitiva.
Il costituente SV2 viene anche utilizzato per l’infinito passato che ha quindi un ausiliare seguito
dal verbo lessicale al participio passato. Inoltre, si costruisce come SV2 anche l’infinito cliticizzato.
Il costituente SV2 contiene i propri complementi e aggiunti, intendendo con aggiunti quelli che
modificano il significato del verbo che costituisce la testa lessicale del SV2.
sv2-[pt-di, vt-fare, compt-[sn-[n-soldi], savv-[avv-rapidamente]]]
sv2-[vcl-averlo, clitac-lo, vppin-chiesto]
sv2-[pt-di, vit-spiegare,
fac-[pk-che,
f-[sn-[ag-simili, n-azioni],
ibar-[neg-non, vin-giovano]]]]
sv2-[viin-uscire, compin-[spda-[partda-dal, sn-[n-casolare]]]]]
sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]]
4.1.3.2.10
SV3
Questo costituente ha come testa il participio passato in funzione di aggiunto modificatore
nominale o frasale. Al suo interno ci sono i complementi e gli aggiunti della testa lessicale. Non
vengono inclusi eventuali avverbiali modificatori del participio passato che possono precederlo e la
testa risulta quindi essere sempre il primo elemento del costituente - vedi quasi fatto = [savv-[inquasi], sv3-[vppt-fatto]]
sv3-[vppt-controllate]
sv3-[vppt-rivolte, sp-[part-all, sn-[n-Italia]],
spda-[partda-dalla, sn-[n-commissione, sa-[ag-europea]]]]
coord-[sv3-[vppt-controllate],
cong-e,
sv3-[vppt-collegate]]
4.1.3.2.11
SV5
D-23
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Questo costituente ha come testa il gerundio in funzione di aggiunto modificatore frasale. Al suo
interno ci sono i complementi e gli aggiunti della testa lessicale. Non vengono inclusi eventuali
avverbiali modificatori del gerundio che possono precederlo e la testa risulta quindi essere sempre il
primo elemento del costituente. Il costituente SV5 viene anche utilizzato per il gerundio passato che
ha quindi un ausiliare seguito dal verbo lessicale al participio passato. Inoltre, si costruisce come
SV5 anche il gerundio cliticizzato.
sv5-[vgin-parlando]
sv5-[vgin-sparando, savv-[avvl-all_impazzata]]
sv5-[aueg-essendo, vppin-arrivato, savv-[avv-presto]]
4.1.3.2.12
F2
Questo costituente ha la stessa funzione di CP, serve cioè a contenere costituenti che sono
anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante.
Possono contenere un SN che come testa abbia un elemento funzionale, il complementatore che,
oppure un pronome relativo preceduto oppure no da un articolo – vedi esempi riportati in basso.
Potrà contenere anche un SP per i pronomi relativi obliqui, preceduto da una preposizione semplice
o articolata, oppure individuati da cui. Il costituente F2 domina sempre invariabilmente un nodo F.
sn-[art-il, n-ragazzo,
f2-[sp-[part-al, rel-quale],
f-[sn-[npro-Gullit],
ibar-[ausa-ha, vppin-parlato]]]]
sn-[art-le, n-imprese, sa-[ag-italiane],
f2-[sn-[rel-che],
f-[
coord-[
ibar-[vt-producono],
cong-e,
ibar-[vt-importano]],
compt-[sn-[n-energia]]]]]]
4.1.3.2.13
FINT
Questo costituente ha la stessa funzione di CP, serve cioè a contenere costituenti che sono
anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante. In
particolare, come nel caso di F2 contiene un SN o un SP che hanno come testa un pronome
interrogativo, preceduto o no da una preposizione.
fint-[sn-[int-chi],
f-[
ibar-[auair-abbia, vppt-incontrato],
compt-[sn-[nh-Maria]]]]
4.1.3.2.14
FAC
Questo costituente ha la stessa funzione di CP, serve però a contenere soltanto la testa di CP, C°,
cioè il complementatore che, che in certi contesti può anche essere vuoto. In questi casi però il nodo
FAC verrà eliminato. Il nodo FAC può apparire nel contesto di un complemento verbale come
COMPT oppure in posizione estraposta, all’inizio frase, sotto CP:
compt-[fac-[pk-che,
f-[
ibar-[clit-c, vc-era],
D-24
Linea 1.1 - Treebank sintattico-semantica dell'italiano
compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]]]]
cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]],
ibar-[vt-significa],
compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]
4.1.3.2.15 COMPT
Questo costituente ha la funzione di individuare tutti i complementi di verbi transitivi. Contiene
tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai
complementi obbligatori, quindi conterrà i complementi opzionali. Questo costituente contiene
inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad individuare delle
modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti
spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei
complementi.
Questo costituente conterrà anche il SN soggetto posposto di frasi passive o invertite per motivi
di carattere informazionale, pragmatico o semantico.
ibar-[auair-abbia, vppt-incontrato],
compt-[sn-[nh-Maria]]
ibar- [vt-promise],
compt-[sp-[p-a, sn-[nh-Maria]], sv2-[pt-di, viin-partire]]
ibar-[ausa-ha, vppt-promesso],
compt-[sv2-[pt-di, vit-accettare, sn-[art-il, n-lavoro]]]
ibar-[vt-informò],
compt-[sn-[nh-Maria], spd-[partd-del, sn-[poss-suo, n-arrivo]]]
ibar-[vt-importa],
compt-[spda-[partda-dalla, sn-[npro-Union_Carbide]]]
ibar-[vt-decise],
compt-[sv2-[pt-di, viin-partire]]
ibar-[ausa-ha, vppt-visto],
compt-[sn-[n-Paolo], sv2-[viin-uscire], spda-[partda-dal, sn-[n-casolare]]]
\\
compt-[sn-[n-Paolo], sv2-[viin-uscire, spda-[partda-dal, sn-[n-casolare]]]]
ibar-[vt-considerava],
compt-[sn-[art-i, n-siciliani],
sn-[art-il, n-popolo, sa-[in-più, ag-intelligente,
spd-[pd-di, sn-[np-Europa]]]]]
ibar-[ausa-ha, vppt-detto],
compt-[fac-[pk-che, f-[ibar-[ausa-avrebbe, vppt-accettato],
compt-[sn-[art-il, n-lavoro]]]]]]
4.1.3.2.16 COMPIN
Questo costituente ha la funzione di individuare tutti i complementi di verbi intransitivi. Con
verbi intransitivi si intendono perlomeno i seguenti tipi sintattici: verbi inaccusativi, verbi
inergativi, verbi atmosferici, verbi impersonali.
Contiene tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre
ai complementi obbligatori, quindi conterrà i complementi opzionali. Questo costituente contiene
inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad individuare delle
D-25
Linea 1.1 - Treebank sintattico-semantica dell'italiano
modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti
spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei
complementi.
Questo costituente conterrà anche il SN soggetto posposto di frasi invertite per motivi di
carattere informazionale, pragmatico o semantico. Casi particolari sono costituiti da frasi ergative,
frasi con il si impersonale, frasi con verbi riflessivi inerenti.
ibar-[vin-esce],
compin-[sp-[part-allo, sn-[n-scoperto]]]
ibar-[vin-arrivai],
compin-[sp-[p-in, sn-[n-ritardo]]]
4.1.3.2.17 COMPC
Questo costituente ha la funzione di individuare il complemento di verbi copulativi. Contiene
tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai
complementi obbligatori, quindi conterrà i complementi opzionali. Questo costituente contiene
inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad individuare delle
modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti
spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei
complementi, come ad esempio nel caso di una predicazione di Locativi ripresi oppure no dal ci.
ibar-[clit-c, vc-era],
compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]
ibar-[clit-’C’, vc-è],
compc-[sn-[art-una, n-vespa], sp-[part-nella, sn-[poss-mia, n-camera]]]
4.1.3.2.18
COORD
COORD/Nome di costituente serve per coordinare costituenti tra di loro e nel caso di SN ad
assegnare numero plurale all’insieme creato dai due o più SN coordinati. Questo costituente
comprende due tipi di teste: la congiunzione coordinate individuata da “cong-e” oppure un segno di
punteggiatura, “punt-,”. Le strutture coordinate possono contenere liste e frasi ellittiche che nel
Penn Treebank vengono indicate da costituenti appositi LST e FRAG. Abbiamo scelto di non
introdurre marche specializzate per questo tipo di strutture in quanto la nostra rappresentazione non
include le categorie vuote. Abbiamo invece trattato a parte le frasi coordinate, che potrebbero
oppure no prevedere strutture ellittiche, con un costituente separato FC (vedi sotto).
coord-[sn-[art-I, n-superstiti],
cong-e,
sn-[art-i, n-parenti, spd-[partd-delle, sn-[n-vittime]]]]
coord-[sv3-[vppt-controllate],
cong-e,
sv3-[vppt-collegate]]
coord-[
ibar-[vt-producono],
cong-e,
ibar-[vt-importano]],
compt-[sn-[n-energia]]]
compin-[coord-[
sp-[part-all, sn-[n-aumento, spd-[pd-di, sn-[n-capitale]]]],
punt-,
sp-[part-all, n-utile, spd-[pd-di, sn-[n-esercizio]]],
D-26
Linea 1.1 - Treebank sintattico-semantica dell'italiano
cong-ed,
sp-[part-ai, sn-[n-contributi,
sp-[p-per, sn-[art-l, n-editoria]]]]]
coord-[sp-[part-sui, sn-[n-pedatori, sp-[p-a, sn-[n-disposizione]]]],
cong-e,
sp-[part-sui, sn-[n-tecnici]]]]
coord-[ibar-[ausa-ha, vppt-confermato],
compt-[sn-[npro-Eugenio, npro-Scalfari]],
cong-ed,
ibar-[ausa-ha, vppt-deliberato],
compt-[sv2-[pt-di, vit-aumentare],
sn-[art-il, n-numero, spd-[partd-dei, sn-[n-consiglieri]]]]]
coord-[spda-[pda-da, sn-[npro-Sting]],
punt-,
sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]],
cong-e,
spda-[partda-dalla, sn-[npro-Nannini]]]]]
fc-[
f-[sn-[ind-Molti],
ibar-[vt-diranno],
fac-[pk-che, f-[ibar-[vc-è],
compc-[sn-[art-il, n-trionfo,
spd-[partd-della, sn-[n-marcatura,
sp-[p-a, sn-[n-uomo]]]]]]]]],
punt-,
f-[sn-[pron-io],
compt-[fac-[intj-no]]]]
i.
FC
Un sottocaso di coordinazione è costituito dalla coordinazione di frasi, una delle quali ellittica,
che viene demarcata da un costituente esplicito, FC.
fc-[f-[sn-[art-Gli, n-esempi],
ibar-[ause-sono, vppt-scritti],
compt-[sp-[p-in, sn-[n-corsivo]]]],
punt-,
f-[sn-[art-le, n-glosse],
compt-[sp-[p-in, sn-[n-stampatello]]]]]
4.1.3.2.19
FP
Con FP si indica la presenza di punteggiatura nel testo che può servire successivamente ad
individuare una eventuale frase parentetica o appositiva, o semplicemente a marcare la spezzatura
del testo in parti informativamente differenti. Con FP sono designati ad esempio, gli aggiunti aperti
del tipo participiale posti dopo la testa che li governa. Le strutture appositive possono essere anche
aggiunti di tipo chiuso, modificatori o attributi. Le parentetiche possono essere frasi di commento,
in forma anche ellittica racchiuse tra due simboli di punteggiatura.
cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]],
fp-[punt-,],
f-[sn-[npro-Giovanni], ibar-[vt-vide],
compt-[ [sn-[qc-tutta, art-la, n-partita]]]]
cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]],
fp-[punt-,],
f-[sn-[nh-Maria], ibar-[vin-partì]]]
D-27
Linea 1.1 - Treebank sintattico-semantica dell'italiano
f-[ibar-[vin-slitta],
sn-[art-la, n-riunione,
fp-[punt-,], f-[sv3-[vppt-prevista], sp-[p-per, sn-[n-oggi]],
fp-[punt-,],
spd-[partd-della, sn-[ag-cosiddetta, n-commissione, nh-sangalli]]]]
4.1.3.2.20
CP
Come già chiarito in una sezione precedente, il costituente CP viene usato per contenere
genericamente tutti i costituenti dislocati che sono stati anteposti o preposti a seguito di processi
sintattici. In particolare, processi come la dislocazione a sinistra o la estraposizione esemplificata
più in basso sono casi in questione. CP è anche la marca che viene utilizzata per le frasi
interrogative con elemento wh- del tipo di chi, che cosa, quando, perché, ecc.
Il costituente CP viene utilizzato genericamente per tutte quelle frasi che non iniziano con il SN
SOGGetto o con il gruppo verbale IBAR, ma con un aggiunto come un SP o un SAVV, oppure con
frasi a tempo indefinito come le gerundive o le participiali, esemplificate più in basso. Inoltre, CP
funge da nodo padre per strutture di frasi complesse, cioè di frasi composte da una frase subordinata
e una frase principale semplice. Altri esempi di questi casi sono stati inseriti nella sezione
successiva dedicata a FS in quanto parte integrante di rappresentazione di periodi.
Che Maria sia partita significa che si è arresa.
cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]],
f-[ibar-[vt-significa],
compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]]
Essendo arrivato presto, Giovanni vide tutta la partita.
cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]],
fp-[punt-,],
f-[sn-[npro-Giovanni],
ibar-[vt-vide],
compt-[sn-[qc-tutta, art-la, n-partita]]]]
Finito il lavoro, Maria partì.
cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]],
fp-[punt-,],
f-[sn-[nh-Maria], ibar-[vin-partì]]]
Che i governi europei debbano silenziosamente ingoiarle non è giusto.
cp-[fac-[pk-Che, f-[sn-[art-i, n-governi, ag-europei],
ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle,
compt-[clitac-le]]]],
f-[ibar-[neg-non, vc-è], svc-[sa-[ag-giusto]]]]
In cambio delle attrezzature e della disponibilità del sito, le università
americane e giapponesi coinvolte nell’esperimento pagheranno le molte e
carissime tonnellate di argon liquido che serviranno a verificare se e quando il
protone decade.
cp-[sp-[p-in, sn-[n-cambio],
coord-[spd-[partd-delle, sn-[n-attrezzature]],
cong-e,
spd-[partd-della, sn-[n-disponibilità,
spd-[partd-del, sn-[n-sito]]]]]],
fp-[punt-,],
f-[sn-[art-le, n-università,
coord-[sa-[ag-americane],
cong-e,
sa-[ag-giapponesi]],
sv3-[vppt-coinvolte, sp-[part-nell, sn-[n-esperimento]]]],
ibar-[vt-pagheranno],
compt-[sn-[art-le,
coord-[sa-[ind-molte],
D-28
Linea 1.1 - Treebank sintattico-semantica dell'italiano
cong-e,
sa-[ag-carissime]],
n-tonnellate, spd-[pd-di, sn-[n-argon], sa-[ag-liquido]],
f2-[rel-che, ibar-[vt-serviranno],
compt-[sv2-[pt-a, vit-verificare,
compt-[
cp-[cosu-se, cong-e, cosu-quando,
f-[sn-[art-il, n-protone],
ibar-[vin-decade],
f-[punto-.]]]]]]]]]]]
4.1.3.2.21
FS e CP
Il costituente FS viene utilizzato in presenza di un elemento linguistico che funga da
subordinatore, quindi per tutte le frasi subordinate. Normalmente le frasi subordinate sono
accompagnate da frasi principali, ma non è sempre così come mostrato da un esempio sottostante.
Oppure, se si vuol parlare di applicazioni, sarà bene ricordare che sono fisici
anche tutti coloro che si occupano di laser, per materiali per l’elettronica, di
superfreddo e superconduttività.
Perché i fisici delle particelle sono alla ribalta molto più spesso dei loro
colleghi che si occupano di laser o di stato solido? “Prima di tutto”, risponde
Roberto Fieschi, docente di fisica dello stato solido dell’Università di Parma,
“perché i fisici nucleari e subnucleari hanno il loro istituto, l’Infn, agile
ed efficiente malgrado le pastoie del parastato. Mentre gli altri gruppi di
ricercatori fisici sono dispersi negli istituti e nei centri del Cnr, e soffrono
tutte le ben note difficoltà di questo ente.”
cp-[fc-[cong-Oppure],
fp-[punt-,],
fs-[cosu-se,
f-[ibar-[clit-si, vsup-vuol, vit-parlare],
compin-[spd-[pd-di, sn-[n-applicazioni]]]]],
fp-[punt-,],
f-[ibar-[clit-si, vit-ricorderà],
compt-[fac-[pk-che,
f-[ibar-[vc-sono, svc-[sa-[ag-fisici]]],
sn-[in-anche, qc-tutti, deit-coloro,
f2-[rel-che, ibar-[clit-si, vt-occupano],
compin-[
coord-[spd-[pd-di, sn-[n-laser]],
fp-[punt-,],
sp-[p-per, sn-[n-materiali],
sp-[p-per, sn-[art-l, n-elettronica]]],
fp-[punt-,],
spd-[pd-di, sn-[n-superfreddo]],
cong-e,
sn-[n-superconduttività]]],
f-[punto-.]]]]]]]]
cp-[cosu-Perché,
f-[sn-[art-i, n-fisici, spd-[partd-delle, sn-[n-particelle]]],
ibar-[vc-sono],
svc-[sp-[part-alla, sn-[n-ribalta]], savv-[in-molto, in-più, avv-spesso],
spd-[partd-dei, sn-[poss-loro, n-colleghi,
f2-[rel-che, ibar-[clit-si, vt-occupano],
coord-[spd-[pd-di, sn-[n-laser]],
cong-o,
spd-[pd-di, n-stato, sa-[ag-solido]]],
f-[puntint- ?]]]]]]]
cp-[fp-[par-”],
sp-[php-prima_di, sa-[avv-tutto]],
fp-[par-”],
fp-[punt-,],
f-[ibar-[vin-risponde],
D-29
Linea 1.1 - Treebank sintattico-semantica dell'italiano
sn-[nh-roberto_fieschi],
fp-[punt-,],
sn-[n-docente, spd-[pd-di, sn-[n-fisica_dello_stato_solido]],
spd-[partd-dell, sn-[n-Università, spd-[pd-di, sn-[np-Parma]]]]]],
fp-[punt-,],
fp-[par-”],
fs-[cosu-perché,
f-[sn-[art-i, n-fisici,
coord-[sa-[ag-nucleari],
cong-e,
sa-[ag-subnucleari]]],
ibar-[vc-hanno],
compc-[sn-[art-il, poss-loro, n-istituto],
fp-[punt-,],
sn-[art-l, npro-Infn],
fp-[punt-,],
coord-[sa-[ag-agile,
cong-ed,
sa-[ag-efficiente]]]],
fs-[cong-malgrado,
f-[sn-[art-le, n-pastoie, spd-[partd-del, sn-[n-parastato]]]]],
f-[punto-.]]]]
fs-[cosu-Mentre,
f-[sn-[art-gli, ag-altri, n-gruppi,
spd-[pd-di, sn-[n-ricercatori], sn-[ag-fisici]]],
ibar-[ause-sono, vppt-dispersi],
compin-[coord-[
sp-[part-negli, sn-[n-istituti]],
cong-e,
sp-[part-nei, sn-[n-centri, spd-[partd-del, sn-[npro-Cnr]]]]]]],
fp-[punt-,],
fc-[cong-e,
f-[ibar-[vt-soffrono],
compt-[sn-[qc-tutte, art-le, in-ben, ag-note, n-difficoltà,
spd-[pd-di, sn-[dim-questo, n-ente]]]],
f-[punto-.]]]]
fp-[par-”],
4.1.3.3 Tipologia dei costituenti sintattici della Treebank di SI-TAL
Riassumendo, nella tabella che segue è riportata la tipologia dei costituenti sintattici che
appariranno nella rappresentazione sintattica a costituenti della Treebank di SI-TAL:
Simbolo
F
SN
SA
SP
SPD
SPDA
SAVV
IBAR
SV2
SV3
SV5
FAC
FC
FS
FINT
Tipo di costituente
frase
sintagma nominale
sintagma aggettivale
sintagma preposizionale
sintagma preposizionale DI
sintagma preposizionale DA
sintagma avverbiale
nucleo verbale a tempo finito
frase infinitiva
frase participiale
frase gerundiva
frase complemento
Coordinatore frase coordinata
Subordinatore frase subordinata
Elementi +wh frase interrogativa
D-30
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Simbolo
FP
Tipo di costituente
Introduttore punteggiatura frase parentetica o
apposizione, o separatore testo
F2
Frase relativa
CP
Elementi dislocati o anteposti, aggiunti frasali e non
COORD/co Elemento coordinante e costituente coordinato
stituente
COMPT
Complementi retti da VerbiTransitivi
COMPIN
Complementi retti da Verbi Intransitivi
COMPC
Complementi retti da Verbi Copulativi
Prima di passare ai criteri di annotazione per questo livello, forniremo una classificazione dei
costituenti, sulla base di come questi riorganizzano i materiali lessicali al proprio interno. In
particolare, possiamo parlare dei seguenti tipi di costituenti:
•
•
costituenti funzionali: includono tutti quei costituenti che al proprio interno non prevedono la
presenza di una testa lessicale semantica, oppure come nel caso dei gruppi preposizionali, che
non sono completi semanticamente senza la presenza di un ulteriore costituente. I costituenti
funzionali si suddividono a loro volta in:
•
costituenti Funzionali Strutturali, che sono privi di una qualsiasi testa lessicale che li
individui;
•
costituenti Funzionali Lessicali, che hanno obbligatoriamente una testa lessicale che ha
oppure no contenuto semantico;
costituenti Sostanziali, che contengono teste lessicali semantiche.
4.1.3.3.1
Costituenti Funzionali Strutturali
Simbolo
F
CP
COMPT
COMPIN
COMPC
4.1.3.3.2
Tipo di costituente
frase
Elementi dislocati o anteposti, aggiunti frasali e non
Complementi retti da Verbi Transitivi
Complementi retti da Verbi Intrasitivi
Complementi retti da Verbi Copulativi
Costituenti Funzionali Lessicali
Simbolo
FAC
FC
FS
FINT
FP
F2
Tipo di costituente
frase complemento con o senza complementatore
Coordinatore frase coordinata
Subordinatore frase subordinata
Elementi +wh frase interrogativa, anche se il
pronome interrogativo è preceduto da preposizione
Introduttore punteggiatura frase parentetica o
apposizione
Frase relativa, anche se il pronome relativo è
preceduto da preposizione o da articolo
D-31
Linea 1.1 - Treebank sintattico-semantica dell'italiano
COORD/costituente
SP
SPD
SPDA
Elemento coordinante e costituente coordinato
sintagma preposizionale
sintagma preposizionale DI
sintagma preposizionale DA
Possiamo notare che nel caso in cui il costituente CP non ha motivo per la sua presenza nella
struttura, cioè nella frase non ci sono costituenti anteposti o aggiunti di inizio frase, esso non
apparirà. Per quanto riguarda il nodo F invece, esso apparirà anche se il soggetto non fosse espresso
lessicalmente: risulterà quindi indicativo delle frasi in cui appare il nodo IBAR, cioè il verbo flesso
di tempo definito. Il nodo F apparirà nelle frasi ellittiche ma non nelle frasi di modo indefinito che
sono invece individuate da nodi SV con numeri che li differenziano.
4.1.3.3.3
Simbolo
SN
SA
SAVV
IBAR
SV2
SV3
SV5
Costituenti Sostanziali
Tipo di costituente
sintagma nominale
sintagma aggettivale
sintagma avverbiale
nucleo verbale a tempo finito
frase infinitiva
frase participiale
frase gerundiva
Anche in questo caso è necessario notare che il costituente IBAR non potrà mai apparire da solo,
ma sempre in compagnia del suo nodo dominante F.
4.1.3.4 Criteri di annotazione
In questa sezione sono forniti criteri di annotazione per quanto concerne il livello sintattico a
costituenti. In particolare, verranno prese in considerazione particolari costruzioni sintattiche e se ne
specificherà il trattamento nell’ambito dello schema di annotazione proposto.
4.1.3.4.1
Costituenti minori, Modificatori e Marcatori Semantici
Nel SN, i determinatori e i modificatori sia che precedano la testa o che la seguano vengono
inclusi allo stesso livello della testa nominale. Mentre i determinatori sono privi di costituenza, tutti
gli altri modificatori portano la loro struttura sintattica. Si suppone che i determinatori (intendendo
con questo termine articoli, quantificatori di vario genere, numeri) dovranno poi essere rappresentati
nella funzione SPEC(ificatore).
I complementatori vengono trattati come i determinatori, sono cioè privi di costituenza sintattica
ma appaiono ad un livello separato: questo crea i presupposti per il loro trattamento al livello della
rappresentazione funzionale, per il quale si rinvia alla sezione 4.1.4.1.2.
Il processo di innalzamento si applica tipicamente alle informazioni associate al nucleo verbale,
oppure a teste semantiche che introducono frasi subordinate e coordinate. Il nucleo verbale di modo
finito, intendendo con la parola nucleo non solo il verbo principale ma anche i suoi ausiliari, si
D-32
Linea 1.1 - Treebank sintattico-semantica dell'italiano
troverà sempre associato a un costituente separato, IBAR. Per quanto riguarda invece i nuclei
verbali di modo non finito - infinito, participio e gerundio semplici o composti - questi verranno
tutti individuati da SVn, dove “n” sta per un numero che serve a specializzare il SV.
La negazione verrà trattata come avverbio e sarà quindi disponibile successivamente per essere
interpretata al livello di rappresentazione adeguato, che però rimane al di fuori dei livelli previsti
per la Treebank di SI-TAL: in ogni caso, tutte le eventuali operazioni semantiche di individuazione
della portata o ambito della negazione potranno essere realizzate sia a partire dalla struttura
sintattica, sia da quella funzionale.
4.1.3.4.2
Costituenti vuoti
La teoria LFG e tutte le sue derivazioni non prevedono nella rappresentazione sintattica la
presenza di elementi vuoti. In pratica, la rappresentazione sintattica dovrà contenere tutto e solo il
materiale lessicale di struttura superficiale. Questa è la strategia che abbiamo deciso di seguire
anche nel caso dello schema di annotazione a costituenti di SI-TAL.
In particolare tutte le operazioni di raccordo tra elementi dislocati o spostati e il loro sito
canonico - vedi il soggetto postverbale, l’oggetto preposto - non richiedono nella rappresentazione
sintattica l’introduzione di tracce e altri tipi di elementi vuoti come marcaposto. Sarà invece il
livello funzionale a rendere conto delle relative relazioni di dipendenza. Lo stesso discorso vale per
le frasi passive, anche nel caso in cui il soggetto si trovi nella posizione preverbale canonica.
Stessa sorte tocca a relazioni di dipendenza definite in LFG “a lunga distanza”, cioè tutte quelle
relazioni che si creano per la presenza di un pronome interrogativo o relativo, o del
complementatore che: in nessun caso, apparirà nella struttura sintattica un costituente vuoto a fare
da marcaposto. Queste relazioni verranno trattate nel livello funzionale, secondo le modalità
illustrate nella sezione 4.1.4.1.3.2.
Il soggetto vuoto non apparirà a livello di rappresentazione a costituenti, e verrà introdotto al
livello funzionale; per la sua rappresentazione si rinvia alle sezioni 4.1.4.1.1 e 4.1.4.2.3.1.
Lo stesso ragionamento vale per il soggetto inespresso di frasi implicite di modo non finito, sia
che si tratti di complementi o di aggiunti. Benché la teoria preveda operazioni ben distinte in un
caso o nell’altro, si sceglie di trattare entrambi i casi allo stesso modo. Nella struttura sintattica non
apparirà alcun costituente per marcare il soggetto inespresso. A livello funzionale invece verrà
inclusa la specificazione di un soggetto controllato, secondo quanto illustrato nella sezione 4.1.4.1.1
(nel paragrafo relativo alla relazione soggetto).
Strutture ellittiche di vario tipo saranno integrate con l’informazione omessa a livello della
realizzazione superficiale nell’annotazione funzionale secondo quanto illustrato nella sezione
4.1.4.2.3.
4.1.3.4.3
Clitici
I clitici meritano un discorso a parte in quanto costituiscono un importante componente della
struttura sintattica, sia a costituenti sia funzionale.
I clitici sono trattati come sostituti lessicali di complementi o aggiunti. Verranno cioè trasformati
in funzioni grammaticali corrispondenti, sulla base del caso lessicale e delle informazioni derivabili
dal predicato reggente; per il loro trattamento al livello funzionale si rinvia alla sezione 4.1.4.1.3.2.
D-33
Linea 1.1 - Treebank sintattico-semantica dell'italiano
La struttura a costituenti registra la loro presenza nella posizione superficiale in cui si trovano e ne
copia il contenuto all’interno di un sintagma corrispondente.
4.1.3.4.4
Il “SI” espletivo: inerente, passivante, medio e impersonale
Altri clitici espletivi sono quelli costituiti dalle varie interpretazioni del si: in particolare quelle
che appaiono nelle frasi con verbi riflessivi inerenti come in Gianni si è arrabbiato, non richiedono
un mapping nella struttura sintattica a costituenti. Il si passivante non contribuisce alcuna
informazione aggiuntiva oltre all’informazione sulla diatesi passiva, come in il pane si mangia col
prosciutto. Lo stesso vale per il si medio che contribuisce informazione sia sulla diatesi, sia sul
soggetto impersonale: da qui si vedono le montagne.
Più in generale, il si impersonale svolge la funzione di individuare il soggetto impersonale, cioè
un soggetto inespresso che assume il contenuto del quantificatore esistenziale, con tratti funzionali e
semantici adeguati. Questa informazione viene travasata nel corrispondente costituente sintattico
SN e utilizzata poi nel mapping in funzioni grammaticali.
Altri si espletivi sono da considerarsi quelli in strutture ergative o incoative, come in il vaso
improvvisamente si ruppe; e il si benefattivo o dativo etico di frasi del tipo: Gino si è bevuto una
coca.
4.1.3.4.5
Preposizioni e SP
Tutte le preposizioni appariranno nella struttura a costituenti come testa del costituente SP
corrispondente. Comunque, vi sono due tipi di costituenti SP: quelli normali e quelli retti dalla
preposizione DI e sue forme derivate o dalla preposizione DA e sue forme derivate. Questa
classificazione dei SP crea i presupposti per stabilire regole di corrispondenza tra la struttura a
costituenti e la struttura funzionale.
4.1.3.4.6
Modali e costruzioni perifrastiche di varia natura (aspettuali, causativi)
Si tratta di costruzioni con verbi modali, aspettuali, utilizzati per perifrasi, causativi, in generale
con i cosiddetti verbi a ristrutturazione. In questi casi, la testa lessicale non è costituita dal verbo
che supporta la perifrasi ma dal verbo lessicale. Il loro trattamento al livello della struttura a
costituenti consiste in una “ristrutturazione” di IBAR, che vede il “sollevamento” del verbo
lessicale e l’“abbassamento” del verbo modale/aspettuale/causativo al suo interno.
Al fine di garantire l’omogeneità di trattamento dei dati linguistici tra i due livelli di annotazione
sintattica nella Treebank di SI-TAL, abbiamo deciso di limitare la tipologia dei verbi che provocano
un sollevamento del verbo lessicale all’interno di IBAR a quelli nella lista che segue, a cui si
devono aggiungere, ovviamente, i due ausiliari, essere e avere:
•
•
•
•
•
•
•
andare
venire
potere
volere
dovere
stare
stare per
Vanno rifiutati tutti gli inviti
Vengano rifiutati tutti gli inviti
Può comprendere le loro richieste
Vuole comprendere le loro richieste
Deve comprendere le loro richieste
Gino sta a guardare
Gino sta per partire
D-34
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Al livello dell’annotazione, i seguenti casi:
•
verbi modali – dovere, volere, potere - e
•
verbi aspettuali – andare, venire, stare, stare per – di cui i primi due sono anche utilizzati
per il passivo
verranno inclusi nel costituente IBAR alla stessa stregua dei verbi ausiliari avere e essere e
saranno seguiti dal verbo lessicale nella sua forma al participio, all’infinito o al gerundio.
4.1.4
Specifiche di annotazione per il livello funzionale
La prima scelta che si pone per questo livello di annotazione è se le relazioni funzionali debbano
essere definite rispetto ai costituenti identificati al livello dell’annotazione a costituenti oppure se
vadano stabilite indipendentemente, cioè definite tra teste lessicali. Abbiamo escluso la prima
ipotesi per diversi ordini di motivi.
Il ricorso ad una annotazione che stabilisce relazioni funzionali tra teste lessicali trova supporto
in una serie di motivazioni di varia natura.
Motivazioni teoriche:
•
lo spettro di schemi di annotazione sintattica compatibili si allarga andando a coprire schemi
propri di grammatiche a dipendenze (quello ad esempio adottato nell’ambito di teorie quali la
Word Grammar (Hudson 1984) o della Constraint Grammar (Karlsson et al. 1995)), che non
assumono in alcun modo l’esistenza di costituenti sintattici e descrivono l’enunciato linguistico
puramente in termini di relazioni di dipendenza tra parole o teste;
Motivazioni applicative:
•
in una prospettiva di uso della Treebank per la valutazione di analizzatori sintattici, una
annotazione funzionale tra teste è considerata particolaremente efficace in quanto:
•
costituisce il minimo comune denominatore di una vasta tipologia di schemi di annotazione,
sia basati sulla costituenza sia sulle dipendenze (Lin 1998; Lenci et al. 1999 b);
•
rappresenta un terreno di comparazione più appropriato, superando i problemi posti da una
valutazione condotta rispetto a rappresentazioni sintattiche a costituenti (Carroll and Briscoe
1996; Carroll et al. 1998; Sampson 1998; Lin 1998; Lenci et al. 1999 b);
•
un numero sempre più crescente di applicazioni di “ingegneria linguistica” fanno uso di
rappresentazioni funzionali espresse in termini di coppie di parole, in particolare in componenti
per il filtraggio e recupero di informazioni (Grefenstette 1994) oppure nell’ambito di sistemi per
la disambiguazione di senso (si veda in proposito l’iniziativa di SENSEVAL/ROMANSEVAL);
•
considerata la difficoltà intrinseca di rappresentare trascrizioni di parlato in termini di struttura a
costituenti, una rappresentazione funzionale tra teste permette di stabilire un terreno comune di
confronto tra lingua parlata e scritta;
•
analoga considerazione vale in una prospettiva multilingue. Mentre la struttura a costituenti può
variare radicalmente tra lingue diverse e anche all’interno della stessa lingua (si consideri ad
D-35
Linea 1.1 - Treebank sintattico-semantica dell'italiano
esempio l’effetto a livello di struttura a costituenti dell’ordine libero dei costituenti in italiano),
le relazioni funzionali – astraendo da alcuni aspetti della sintassi di superficie (ad esempio
relazioni di precedenza) - sono meno soggette a variazione sia in una prospettiva interlinguistica sia intra-linguistica.
Motivazioni operative:
•
un’annotazione funzionale tra teste rende lo schema particolarmente flessibile per quanto
riguarda le strategie e le metodologie di annotazione; ad esempio, uno stesso testo può essere
annotato in parallelo ai diversi livelli, a costituenti e funzionale. Questo aspetto è cruciale
nell’ambito di SI-TAL, in quanto la porzione di corpus annotata a livello funzionale è
significativamente più ampia di quella annotata a costituenti (circa 300.000 vs circa 80.000
parole); inoltre, i tempi di realizzazione della risorsa Treebank sono tali da richiedere di
procedere ad una annotazione in parallelo per i diversi livelli.
Ulteriori motivi che scoraggiano il ricorso ad una annotazione a costituenti aumentata
dell’informazione funzionale si identificano in:
•
la complicazione ormai ampiamente sperimentata nell’ambito di altre Treebank derivante
dall’inclusione di informazione funzionale all’interno di uno schema di annotazione a
costituenti. Si veda, ad esempio, l’esperienza della Penn Treebank (Marcus et al. 1994): la
revisione dello schema di annotazione in vista dell’estrazione automatica di una banca dati di
strutture predicato-argomento ha comportato, oltre all’introduzione di etichette funzionali da
associarsi ai costituenti, anche un massiccio uso di tracce e costituenti vuoti che hanno
appesantito l’annotazione rendendola di più difficile produzione e comprensione;
•
la stretta dipendenza che viene a stabilirsi tra i due livelli di annotazione, per cui annotazioni
che nella letteratura ricevono interpretazioni controverse a livello di costituenza si ripercuotono
anche al livello funzionale. Si consideri il caso di costruzioni sintattiche particolari che
presentano serie difficoltà nell’identificazione dei confini di costituenza, ma che non presentano
particolari difficoltà a livello di un’annotazione funzionale, ad esempio frasi del tipo Ho visto
Maria partire, Considero Gianni intelligente oppure di casi di condivisione di costituenti in
strutture coordinate. Una frase del tipo ho visto Maria partire riceve nella letteratura analisi a
costituenti differenziate, ma entrambe legittime:
1. Ho visto [ Maria partire ]
2. Ho visto [ Maria ] [ partire ]
si noterà che un’analisi funzionale come quella riportata sotto è compatibile con entrambe e non
richiede una presa di posizione a favore dell’una o dell’altra:
a) arg(vedere, partire)
b) ogg(vedere, Maria)
c) sogg(partire, Maria)
l’analisi 1 è coperta da a) e c), mentre la 2 dalla combinazione di a), b) e c).
Sulla base delle considerazioni riportate sopra, sia teoriche che pratiche, abbiamo optato per uno
schema di annotazione funzionale tra teste.
Segue una descrizione dettagliata dello schema di annotazione funzionale proposto per la
Treebank di SI-TAL che prende le mosse dallo schema di annotazione elaborato nel progetto
europeo SPARKLE (LE-2111), a sua volta rielaborato e rivisto ai fini della sua adozione
D-36
Linea 1.1 - Treebank sintattico-semantica dell'italiano
nell’ambito di campagne di valutazione di analizzatori sintattici nell’ambito del progetto ELSE
(LE4-8340). F.A.M.E (Functional Annotation Meta-scheme for Evaluation), lo schema elaborato in
ELSE (Lenci et al. 1999 a e 1999 b), viene riproposto in questa sede in una versione rivista e
specializzata rispetto alle peculiarità della lingua da annotare – l’italiano – ed alla sua adozione
come schema di annotazione di una Treebank.
4.1.4.1 Tipologia delle relazioni funzionali
Gli elementi di base dello schema di annotazione che proponiamo sono relazioni funzionali,
dove con “relazione funzionale” si intende una relazione binaria asimmetrica sussistente tra una
parola chiamata TESTA ed un’altra parola chiamata DIPENDENTE. All’interno dello schema proposto,
una relazione funzionale sussiste solo tra parole piene o lessicali. Quindi, sono automaticamente
escluse relazioni funzionali che riguardano elementi grammaticali quali i determinativi, gli ausiliari,
i complementatori, le preposizioni, etc. L’informazione riguardante questi elementi è codificata
mediante tratti associati ai termini della relazione di dipendenza, come viene descritto sotto.
Ciascuna relazione funzionale è rappresentata come una relazione binaria espressa come segue:
tipo_di_dipendenza (testa.<tratti_distintivi>,
dipendente.<tratti_distintivi>)
Tipo_di_dipendenza specifica la relazione sussistente tra la testa lessicale e il suo dipendente; la
testa e il dipendente della relazione possono anche ricevere una caratterizzazione rispetto ad un
insieme di tratti che sono considerati rilevanti rispetto alla relazione che li lega ed al tipo di testa e
dipendente.
La tipologia delle relazioni di dipendenza previste dallo schema di annotazione proposto è
organizzata gerarchicamente, in modo tale da permettere rappresentazioni sottospecificate che
potrebbero essere utili per il trattamento di costruzioni realmente ambigue oppure controverse.
Come già discusso in precedenza, nell’ambito di un’annotazione manuale il ricorso alla
sottospecificazione è utile per ridurre il margine di arbitrarietà nelle scelte degli annotatori.
Relazioni di dipendenza sottospecificate sono anche particolarmente cruciali: nel caso di
un’annotazione automatica, quando l’analizzatore sintattico non abbia a disposizione l’informazione
necessaria per un’analisi completamente specificata; oppure, nell’ambito di campagne di
valutazione, per evitare penalizzazioni arbitrarie di analisi funzionali divergenti ma in qualche
misura compatibili.
La gerarchia delle relazioni è strutturata come segue:
D-37
Linea 1.1 - Treebank sintattico-semantica dell'italiano
dip
sogg
comp
mod
arg
pred
non-pred
ogg_d
ogg_i
obl
Questa gerarchia separa il soggetto (sogg) rispetto alle altre relazioni grammaticali assegnandogli
una posizione più alta all’interno di tutta l’organizzazione delle funzioni sintattiche, come è usuale
in molte teorie grammaticali (per esempio HPSG, GB). Inoltre, raggruppando i modificatori (mod) e
gli argomenti (arg) sotto lo stesso nodo dei complementi (comp), la gerarchia di relazioni proposta
ammette la possibilità di lasciare sottospecificata la distinzione tra modificatore (o aggiunto) e
argomento che non è sempre facile da applicare, specialmente rispetto all’uso reale della lingua. Il
nodo “arg” è a sua volta suddiviso in “pred”, che raccoglie solo ed esclusivamente i complementi
predicativi classici (predicativi del soggetto e dell’oggetto), e “non-pred”, che sussume i
complementi non-predicativi, ovvero “ogg_d” (per gli oggetti diretti), “ogg_i” (per gli oggetti
indiretti) e “obl” (per gli argomenti obliqui).
Si noti che al livello di annotazione funzionale si rappresentano solo quei fenomeni che sono
rilevanti per l’identificazione e/o specificazione di relazioni grammaticali (ad es. caso, diatesi, tratti
di accordo etc.). Ne consegue che fenomeni come il tempo e l’aspetto verbale, l’ambito della
negazione e l’ellissi interfrasale non sono trattati a questo livello in quanto considerati di pertinenza
di un livello di rappresentazione logico-semantica che non trova una sua collocazione
nell’architettura globale della Treebank di SI-TAL così come strutturata ad oggi. Analoga
considerazione vale nel caso delle funzioni pragmatiche di topic e focus che sono al di fuori delle
finalità del progetto in quanto sarebbero da trattare piuttosto ad un livello di rappresentazione
pragmatica. Va comunque considerato che una Treebank come questa, dove l’annotazione è
distribuita su più livelli, è aperta ad integrazioni future. I fenomeni e le costruzioni che non trovano
nella Treebank attuale una collocazione adeguata potranno dare luogo in futuro ad espansioni ed
integrazioni della risorsa.
In quanto segue, definiamo prima in maniera schematica ciascuna relazione funzionale, per poi
passare alla definizione dei tratti che possono essere associati alla testa e al dipendente.
4.1.4.1.1
Inventario delle relazioni
dip (testa, dipendente)
dip(endenza) è la relazione più generica tra una testa e un dipendente, che rimane
sottospecificata per quanto riguarda lo status di quest’ultimo. Questo livello di
sottospecificazione può essere utile nei casi in cui l’informazione disponibile non è
sufficiente per la disambiguazione. In particolare, dip può essere utile per trattare casi di
ambiguità reale tra soggetto e oggetto: ad esempio, sia chi che Maria possono essere
soggetto o oggetto nella completiva incassata nella frase non so chi abbia incontrato Maria.
D-38
Linea 1.1 - Treebank sintattico-semantica dell'italiano
In casi come questo, quando il contesto non sia di aiuto a capire chi incontra chi, si consiglia
di ricorrere all’annotazione che segue:
dip (incontrare, chi)
dip (incontrare, Maria)
sogg (testa, dipendente)
Indica la relazione tra un predicato e il suo sogg(etto):
sogg (arrivare, Giovanni) Giovanni arrivò a Parigi
sogg (assumere, Microsoft) La Microsoft ha assunto dieci programmatori
sogg (assumere, Paolo) Paolo è stato assunto dalla Microsoft
sogg si riferisce al soggetto superficiale della frase: come illustrano gli esempi sopra, viene
assegnato indipendentemente dalla diatesi attiva o passiva della testa verbale (a sua volta
codificata come tratto associato alla testa, cfr sezione 4.1.4.1.2). Il soggetto logico non è
marcato esplicitamente a livello di relazione, bensì al livello di tratti associati al dipendente
come illustrato in dettaglio nella sezione 4.1.4.2.2.
La stessa relazione di sogg è anche usata per marcare frasi completive in funzione di
soggetto, come illustrato dagli esempi che seguono.
sogg (significare, partire) che Maria sia partita significa che si è arresa
sogg (richiedere, vincere) vincere la gara richiede un grosso impegno
sogg (essere, partire) è necessario partire presto
Con lingue pro-drop come l’italiano, casi di soggetto “nullo” o ellittico, che si verificano
quando il soggetto non è superficiamente realizzato, vengono trattati mediante
un’annotazione parziale, esemplificata di seguito:
sogg (arrivare, .<pers=1,num=sing>) arrivai in ritardo
dove i) l’elemento dipendente non è specificato a livello lessicale e ii) le caratteristiche
morfo-sintattiche del soggetto, corrispondenti alla persona, al numero e al genere (qualora
rilevante), sono codificate in termini di tratti associati al dipendente (si veda la sezione
4.1.4.1.2 per maggiori dettagli). Questa soluzione è stata messa a punto per evitare
rappresentazioni troppo dipendenti da una teoria specifica ed al contempo fornire una
rappresentazione il più informativa possibile; si è preferita, ad esempio, ad una codifica del
tipo “sogg (arrivare, pro)” che tratta il pro-drop nei termini di una relazione tra una testa
verbale ed un elemento vuoto (pro) che a sua volta necessiterebbe di una caratterizzazione
da un punto di vista morfo-sintattico. In questo modo, viene anche garantita la comparabilità
e la compatibilità con approcci diversi.
La relazione sogg è usata inoltre per contrassegnare il soggetto “implicito” di completive
infinitivali con funzione di complemento in costruzioni a controllo e a sollevamento
(distinzione, questa, che non appare rilevante dal punto di vista dell’annotazione funzionale)
così come di infinitive, participiali e gerundive con funzione di modificatore, come illustrato
dagli esempi che seguono:
sogg (partire, Giovanni) Giovanni promise a Maria di partire
sogg (partire, Maria) Giovanni ordinò a Maria di partire
sogg (partire, Maria) Maria fu costretta a partire
sogg (arrivare, Giovanni) Giovanni sembra arrivare domani
sogg (arrivare, Giovanni) Essendo arrivato presto, Giovanni vide tutta la partita
sogg (finire, Giovanni) Finito il lavoro, Giovanni partì
D-39
Linea 1.1 - Treebank sintattico-semantica dell'italiano
sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro
La relazione sogg è usata infine per contrassegnare il soggetto di complementi predicativi
(del soggetto o dell’oggetto), come illustrato di seguito:
sogg (intelligente, Giovanni) Giovanni è intelligente
sogg (intelligente, Maria) Giovanni considera Maria intelligente
sogg (genio, Maria) Maria è considerata un genio
Con questi due ultimi insiemi di casi - il soggetto implicito di frasi complemento di modo
non finito ed il soggetto di complementi predicativi - lo schema proposto va al di là del
dominio proprio della sintassi di superficie e include informazione relativa alla struttura
predicato-argomento: in particolare, fornisce indicazione esplicita i) riguardo al soggetto del
verbo nella frase incassata quando controllato da un argomento della testa verbale della frase
matrice e ii) riguardo al soggetto di complementi predicativi. Abbiamo deciso comunque di
includerla per garantire la compatibilità della Treebank con schemi di annotazione sintattica
che marcano soggetti “impliciti” di frasi incassate (in vista, ad esempio, di un uso della
Treebank a fini di valutazione) oppure che trattano il complemento predicativo in termini di
frase ridotta selezionata dal verbo reggente.
comp (testa, dipendente)
comp marca in modo generico la relazione tra una testa ed un complemento, sia esso
modificatore o argomento. Questa relazione funzionale sottospecificata è particolarmente
utile in quei casi in cui è difficile stabilire la natura argomentale o di modificatore del
complemento. Per esempio, consideriamo la frase Giovanni spinse la macchina alla stazione
dove, a seconda dei criteri di selezione adottati, alla stazione può essere considerato come
un modificatore o come un argomento. La caratterizzazione come comp riportata sotto
rimane compatibile con entrambe le analisi, non costringendo l’annotatore a decisioni
arbitrarie e/o premature:
comp (spingere, stazione)
Questa relazione risulta particolarmente utile nei seguenti casi:
•
codifica della relazione tra un nome ed un suo complemento preposizionale. Si
confrontino i seguenti casi:
comp (professore, fisica) il professore di fisica
comp (padre, Maria) il padre di Maria
l’annotazione nei termini di comp mantiene sottospecificata la natura del complemento,
che non è sempre facile da stabilirsi in modo univoco.
•
codifica della relazione tra una testa ed un argomento semantico che sia sintatticamente
realizzato come un modificatore. Questo è il caso, ad esempio, dell’agente espresso nella
costruzione passiva come un complemento preposizionale introdotto dalla preposizione
“da”: la sua natura di “aggiunto tematicamente legato” è messa in evidenza dalla sua
codifica in termini di comp, come esemplificato nel frammento di annotazione che
segue:
comp (uccidere, Bruto) fu ucciso da Bruto
Nell’annotazione della Treebank di SI-TAL il ricorso alla relazione comp verrà limitato ai
casi in cui non sia possibile decidere se la relazione di dipendenza in questione sia di
modificazione oppure di argomento. A questo proposito, l’annotatore avrà a disposizione
D-40
Linea 1.1 - Treebank sintattico-semantica dell'italiano
una batteria di criteri per discriminare i due casi (illustrati nella sezione 4.1.4.2.1): i casi che
rimarranno incerti verranno annotati in modo sottospecificato, ovvero in termini di comp.
mod (testa, dipendente)
La relazione mod sussiste tra una testa e il suo modificatore, come illustrato dai seguenti
casi:
•
modificazione aggettivale
mod (bandiera, rosso) una bandiera rossa
•
modificazione avverbiale
mod (camminare, lentamente) camminare lentamente
•
modificazione con sintagma preposizionale
mod (camminare, calma) camminare con calma
•
apposizione
mod (Picasso, pittore) Picasso il pittore
•
modificazione frasale
mod (camminare, parlare) camminava parlando
mod (mangiare, chiedere) ha mangiato i dolci dopo averlo chiesto
mod (mangiare, chiedere) ha mangiato i dolci senza chiedere
Confrontando gli esempi sopra, si può notare che la relazione mod copre modificatori frasali
e non.
arg (testa, dipendente)
arg indica la relazione più generica intercorrente tra una testa ed un argomento. Oltre a casi
in cui la sottospecificazione relativa alla funzione dell’argomento appaia opportuna, questa
relazione viene normalmente usata per etichettare la relazione intercorrente tra una testa
verbale e una completiva non soggetto (sia essa infinitiva o meno), come illustrato dai
seguenti casi:
arg (promettere, accettare) Giovanni ha promesso di accettare il lavoro
arg (ordinare, partire) Giovanni ha ordinato a Maria di partire
arg (dire, accettare) Giovanni ha detto che avrebbe accettato il lavoro
arg (informare, andare) Giovanni ha informato Maria che sarebbe andato
arg (promettere, andare) Giovanni ha promesso a Maria che sarebbe andato
Questo tipo di codifica della funzione delle completive complemento parte dalla
constatazione dell’ampia variabilità della funzione loro assegnata nell’ambito di diverse
teorie grammaticali e di diversi analizzatori sintattici (caso che invece non si verifica nel
caso di soggetti di tipo frasale che sono di più facile identificazione). Ad esempio, la
completiva infinitivale della frase Maria ha deciso di partire è classificata come oggetto
diretto nello schema di annotazione della Constraint Grammar (Karlsson et al. 1995) mentre
è caratterizzata come complemento predicativo non saturato (xcomp) nella LFG così come
nello schema di annotazione avanzato nel progetto europeo SPARKLE. L’analisi qui
proposta, integrata con informazione codificata in termini di tratti distintivi (si veda il tratto
D-41
Linea 1.1 - Treebank sintattico-semantica dell'italiano
status discusso nella sezione 4.1.4.1.2), rimane così comparabile e compatibile con un
ampio spettro di analisi senza perdita di informazione.
pred (testa, dipendente)
pred contrassegna la relazione che sussiste tra una testa verbale ed un complemento
predicativo, sia esso un complemento predicativo del soggetto o un complemento
predicativo dell’oggetto.
pred (essere, intelligente) Giovanni è intelligente
pred (considerare, genio) Giovanni considera Maria un genio
Come verrà illustrato in dettaglio nella sezione 4.1.4.2.2, la distinzione tra predicativo del
soggetto e predicativo dell’oggetto sarà ricavabile dalla rappresentazione complessiva della
frase. Al livello della singola relazione ci limitiamo a marcare la natura predicativa del
complemento rispetto alla testa verbale.
non-pred (testa, dipendente)
Nella gerarchia delle relazioni funzionali riportata sopra, non-pred è il nodo che raggruppa
complementi non predicativi. Non si prevedono, ad oggi, casi in cui questa relazione sia
usata per trattare casi ambigui che richiedano una sottospecificazione a questo livello.
ogg_d (testa, dipendente)
ogg_d è la relazione che sussiste tra un predicato e il suo oggetto diretto (sempre nonfrasale), cioè:
ogg_d (leggere, libro) Giovanni ha letto molti libri
ogg_i (testa, dipendente)
ogg_i è la relazione tra un predicato e un oggetto indiretto, cioè il complemento che esprime
l’entità che accoglie l’azione espressa dal verbo, come esemplificato dai casi che seguono:
ogg_i (parlare, Maria) Giovanni parla a Maria
ogg_i (dare, Maria) Giovanni diede a Maria il contratto
ogg_i (dare, Maria) Giovanni diede il contratto a Maria
ogg_i (parlare, le) Giovanni le parla
Un test cruciale per l’identificazione di questa relazione
pronominalizzazione dell’ogg_i con un dativo (si veda sotto).
è
costituito
dalla
obl (testa, dipendente)
obl è la relazione tra un predicato e un complemento non frasale, non diretto e non indiretto,
realizzato tipicamente in forma di sintagma preposizionale:
obl (vivere, Roma) Giovanni vive a Roma
obl (arrivare, aeroporto) Giovanni arrivò all’aeroporto
obl (informare, arrivo) Giovanni informò Maria del suo arrivo
obl (comportarsi, freddezza) Giovanni si comportò con freddezza
D-42
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Come accennato sopra, la distinzione tra oggetto indiretto e complemento obliquo è
supportata dal diverso tipo di pronominalizzazione dei due complementi. Si confrontino le
seguenti coppie di frasi:
1.
2.
Giovanni ha dato un libro a Maria
Giovanni le ha dato un libro
Giovanni aspirava a Maria
*Giovanni le aspirava
dove a Maria è un oggetto indiretto in 1. e in quanto tale è pronominalizzato con il dativo le,
mentre è un complemento obliquo in 2., dove la pronominalizzazione con il pronome dativo
risulta in una frase sintatticamente mal formata.
La relazione obl è anche usata per marcare la dipendenza tra un verbo e complementi
avverbiali la cui selezione è governata a livello lessicale; ad esempio:
obl (comportarsi, bene) Giovanni si comportò bene
4.1.4.1.2
Tratti associati agli elementi della relazione
Nello schema di annotazione proposto, un ruolo centrale è ricoperto dai tratti associati ad
entrambi gli elementi della relazione.
In ciò che segue i due insiemi di tratti sono discussi separatamente, prima i tratti del DIPENDENTE,
poi quelli della TESTA, infine quelli comuni a entrambi. Si noti che i tratti sono aggiunti alla
specificazione del DIPENDENTE e della TESTA, tra parentesi uncinate e preceduti da un punto.
4.1.4.1.2.1
•
Tratti distintivi del DIPENDENTE
intro(duttore)
Il tratto intro(duttore) è usato in una varietà di costruzioni diverse per specificare l’elemento
grammaticale che “introduce” la testa lessicale del dipendente; la natura dell’introduttore varia a
seconda della relazione funzionale esistente tra la testa e il dipendente, ad esempio può trattarsi
di preposizione nel caso di complementi non-frasali, oppure congiunzione nel caso di
completive di modo finito. Ad esempio:
ogg_i (dare, Maria.<intro=“a”>) dare a Maria
comp (uccidere, Bruto.<intro=“da”>) fu ucciso da Bruto
arg (dire, accettare.<intro=“che”>) Giovanni ha detto che accetterà il lavoro
arg (decidere, lasciare.<intro=“di”>) Giovanni ha deciso di lasciare il lavoro
mod (camminare, parlare.<intro=“mentre”>) camminava mentre parlava
•
caso
Il tratto di caso del dipendente, che può essere utile a supporto dell’identificazione di una
relazione funzionale:
ogg_i (dare,gli.<caso=dativo>) dargli
•
status
Il tratto status è associato a dipendenti di forma frasale ed è usato per discriminare tra soggetti e
complementi frasali con la valenza soggetto saturata e quelli con soggetto controllato da
dipendenze esterne. I possibili valori associati a questo tratto sono:
D-43
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
aperto – marca la testa di un soggetto o complemento (sia esso argomento o modificatore)
frasale il cui soggetto è controllato da una testa con la quale non esiste una esplicita e diretta
relazione di dipendenza (questo implica, ad esempio, che la relazione non è marcata
dall’accordo grammaticale):
arg (decidere, partire.<status=aperto>) Giovanni decise di partire
mod (aspettare, arrivare.<status=aperto>) essendo arrivati presto, abbiamo
aspettato l’incontro
sogg (richiedere, vincere.<status=aperto>) vincere l’America’s Cup richiede
montagne di soldi
•
chiuso – marca un soggetto o complemento (sia esso argomento o modificatore) frasale
il cui soggetto non è controllato da dipendenze esterne:
arg (dire, partire.<status=chiuso, intro=“che”>) Giovanni disse che Maria
sarebbe partita domani
mod (mangiare, affamato.<status=chiuso, intro=“perché”>) ha mangiato il dolce
perché era affamato
sogg (essere, ingoiare.<intro=“che”, status=chiuso>) che i governi europei
debbano silenziosamente ingoiarle non è giusto
•
modo
Il tratto di modo del dipendente è usato, nel caso di soggetti e complementi frasali, per
specificare il modo della testa verbale:
mod (camminare, parlare.<modo=gerundio>) Camminava parlando
mod (partire, finire.<modo=part_pass>) Finito il lavoro, Maria partì
arg (decidere, partire.< modo=inf>) Giovanni decise di partire
mod (aspettare, arrivare.< modo=gerundio >) essendo arrivati presto, abbiamo
aspettato l’incontro
sogg (richiedere, vincere.< modo=inf>) vincere l’America’s Cup richiede montagne
di soldi
Per quanto questo tipo di informazione è già incluso nell’input taggato morfo-sintatticamente,
viene riportato in questa sede in quanto rilevante per la caratterizzazione della relazione di
dipendenza. Per quanto riguarda l’annotazione vera e propria, nella fase iniziale della linea 1.2
verrà deciso se questo tratto riceverà una codifica indipendente da parte dell’annotatore oppure
se verrà automaticamente ereditato ed eventualmente convertito dall’annotazione morfosintattica.
•
ruolo
Il tratto di ruolo è usato per fornire una caratterizzazione semantica alla relazione di
dipendenza, ovvero per rendere esplicito, quando necessario, il ruolo semantico del dipendente
rispetto alla testa. Si ricorre a tale tratto quando l’informazione sintattico-funzionale non sia
sufficiente a caratterizzare in modo univoco la relazione. Si prenda ad esempio il caso del
complemento di agente in costruzioni passive: a livello di relazione la sua codifica è in termini
di comp, ma da questa codifica (combinata con la diatesi della testa verbale) non è possibile
risalire in modo certo all’interpretazione di complemento di agente, informazione che per certe
applicazioni (ad esempio la traduzione automatica) è cruciale. Analoghe considerazioni valgono
nel caso di complementi temporali, locativi e comparativi.
Il tratto di ruolo può assumere i valori di agente, temporale, locativo, comparativo e viene
assegnato per specializzare l’interpretazione della relazione funzionale, fornendo così elementi
utili per l’interpretazione semantica della relazione in corso di annotazione:
D-44
Linea 1.1 - Treebank sintattico-semantica dell'italiano
comp (uccidere, Bruto.<intro=“da”,ruolo=agente>) fu ucciso da Bruto
arg (partire, Roma.<intro=“da”,ruolo=locativo>) è partito da Roma
mod (partire, ora.<intro=“da”,ruolo=temporale>) è partito da un’ora
comp (migliore, insegnante.<intro=“di”,ruolo=compar>) è migliore dell’insegnante
4.1.4.1.2.2
•
Tratti distintivi della TESTA
diat(esi)
Il tratto diat specifica la diatesi di una testa verbale. Suoi possibili valori sono: attivo, passivo,
medio.
sogg (assumere.<diat=attivo>, Microsoft) La Microsoft ha assunto Paolo
sogg (assumere.<diat=passivo>, Paolo) Paolo fu assunto dalla Microsoft
sogg (vendere.<diat=medio>, casa) Questa casa si vende bene
•
pers(ona)
pers specifica la persona di una testa verbale:
sogg (mangiare.<pers=3>, Mario) Mario mangia una pizza
•
num(ero)
num specifica il numero di una testa verbale:
sogg (mangiare.<num=sing>, Mario) Mario mangia una pizza
•
gen(ere)
gen specifica, ove rilevante (ovvero con verbi con diatesi passiva o media, oppure con tempi
composti), il genere di una testa verbale:
sogg (arrivare.<gen=fem>, Maria) Maria è arrivata
Per quanto l’informazione relativa alla persona, genere e numero è già codificata nell’input taggato
morfo-sintatticamente, questi tratti sono discussi in questa sede in quanto rilevanti per una completa
caratterizzazione della relazione di dipendenza. Per quanto riguarda l’annotazione vera e propria,
nella fase iniziale della linea 1.2 verrà deciso se questi tratti riceveranno una codifica indipendente
da parte dell’annotatore oppure se verranno automaticamente ereditati ed eventualmente convertiti
dal testo morfo-sintatticamente annotato.
4.1.4.1.2.3
Tratti distintivi della TESTA e del DIPENDENTE
Per quanto riguarda i nomi, sia nel ruolo di testa sia in quello di dipendente, si è decisa la
codifica dei seguenti tratti:
•
QUANT(ificazione): il cui valore è costituito da un quantificatore
ogg_d (vedere, gatto.<quant=“molto”>) ho visto molti gatti
•
CARD(inalità): il cui valore è costituito da un numero
D-45
Linea 1.1 - Treebank sintattico-semantica dell'italiano
ogg_d (vedere, gatto.<card=“due”>) ho visto due gatti
•
DEF(initezza): i cui possibili valori sono costituiti da +, -, e 0
ogg_d (vedere, gatto.<def=+>) ho visto il gatto
ogg_d (vedere, gatto.<def=->) ho visto un gatto
ogg_d (vedere, gatto.<def=0>) ho visto gatti
•
AUX e PERIFRA
Per quanto riguarda i verbi, sia nel ruolo di testa sia in quello di dipendente, si è decisa la
codifica dei tratti aux e perifra per la descrizione di alcune costruzioni verbali perifrastiche.
Sono codificate in modo sintetico (ovvero in termini di tratti associati ad un’unica testa
lessicale) le costruzioni perifrastiche con i verbi essere e avere, così come con andare,
venire, potere, volere, dovere e stare (per la tipologia di costruzioni coperte si rinvia alla
sezione 4.1.3.4.6). Aux viene usato per la descrizione di tempi composti con i verbi ausiliari
essere e avere; a perifra si ricorre negli altri casi, ovvero essere nella costruzione passiva, e
tutti gli altri verbi modali e aspettuali. Ad esempio:
ogg_d (vedere.<aux=“avere”>, gatto) ho visto i gatti
sogg (vedere.<perifra=“essere”>, gatto) sono stati visti molti gatti
mod (arrivare.<perifra=“dovere”>, domani) devono arrivare domani
4.1.4.1.2.4
Tratti distintivi della TESTA e del DIPENDENTE: riepilogo
Si noti che la tipologia di tratti fornita nelle sezioni che precedono è suscettibile di ampliamenti:
la tipologia discussa finora si riferisce ai tratti qualificanti la definizione delle relazioni di
dipendenza. Lo stesso vale per l’insieme dei possibili valori associati ad ogni tratto che possono
essere integrati con nuovi valori.
Al fine di rendere l’annotazione più leggibile, negli esempi forniti sopra i tratti sono stati
specificati solo quando necessari alla comprensione della relazione. Ovviamente un’annotazione
completa dovrà includere, per ogni elemento della relazione, l’insieme completo dei tratti rilevanti
nel constesto specifico.
Questioni aperte che rimangono da valutare nella fase di verifica e convalida delle specifiche
riguardano:
1. la definizione, per ogni singolo tratto, di valori di default;
2. l’obbligatorietà/opzionalità della specificazione di ogni singolo tratto: sarà da valutare se sia
opportuno avere delle specificazioni opzionali nell’ambito di uno schema di annotazione di una
Treebank e, in caso positivo, a quali porzioni della Treebank dovranno associarsi;
3. la relazione tra l’annotazione morfo-sintattica (già inclusa nell’input) e quella funzionale per
quanto riguarda i tratti definiti come rilevanti per il livello funzionale ma già presenti
nell’annotazione morfo-sintattica (ad esempio i tratti di genere e numero).
D-46
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.1.4.1.3
Altri tipi di relazioni
Oltre alle relazioni di dipendenza descritte sopra, lo schema proposto include anche relazioni di
altro tipo, ovvero:
•
relazioni simmetriche di congiunzione e disgiunzione per il trattamento della coordinazione;
•
relazioni simmetriche di coreferenza per il trattamento di frasi relative ed interrogative.
4.1.4.1.3.1
Annotazione di costruzioni coordinate
La coordinazione è trattata mediante relazioni simmetriche di congiunzione (cong) e di disgiunzione
(disg). Si consideri, ad esempio, la frase Giovanni e Maria sono arrivati, contenente un soggetto
congiunto. Alla sua rappresentazione in termini di dipendenze riportata sotto:
sogg (arrivare, Giovanni)
sogg (arrivare, Maria)
si aggiunge la specificazione della relazione di congiunzione che segue:
cong (Giovanni, Maria)
La rappresentazione della frase Giovanni o Maria sono arrivati non differirà a livello di relazioni
di dipendenza; l’unica differenza riguarda la relazione tra Giovanni e Maria che in questo caso è di
disgiunzione:
disg (Giovanni, Maria)
In fase di verifica e convalida delle specifiche della Treebank dovrà essere identificata la
tipologia completa di relazioni per il trattamento della coordinazione, per coprire casi più complessi
come sia … sia, né … né, così come le congiunzioni avversative.
Inoltre, sempre nella stessa fase, verrà dettagliato il trattamento della coordinazione di più di due
elementi che, coerentemente con i principi basilari dello schema proposto, sarà attuata mediante il
ricorso a relazioni binarie come esemplificato dalla rappresentazione del sintagma nominale
l’aumento, l’utile e i contributi codificato di seguito:
cong (aumento, utile)
cong (utile, contributo).
4.1.4.1.3.2
Annotazione di relazioni di coreferenza
In questa sezione, trattiamo l’annotazione di relazioni di coreferenza, che sarà circoscritta a
relazioni di coreferenza di chiara natura sintattica ed interne alla singola frase. Questa restrizione
consegue naturalmente dalla natura del testo da annotare (lingua scritta) ed dal livello di
annotazione in questione (sintattico-funzionale): nella Treebank di SI-TAL, l’annotazione di
relazioni di coreferenza sarà circoscritta a legami interni alla singola frase; verrà invece fatta
astrazione da relazioni anaforiche in quanto di diretta pertinenza della semantica. Anche se relazioni
di coreferenza vanno al di là della sintassi di superficie, riteniamo che la loro annotazione
nell’ambito della Treebank di SI-TAL sia importante in quanto la presenza di questo tipo di
informazione renderebbe la risorsa usabile in modo più efficace in applicazioni quali, ad esempio,
recupero ed acquisizione di informazioni.
D-47
Linea 1.1 - Treebank sintattico-semantica dell'italiano
In particolare, l’annotazione riguarderà il legame tra:
•
il pronome relativo ed il suo antecedente;
•
tra il clitico e l’elemento dislocato in costruzioni a dislocazione con ripresa pronominale.
Consideriamo ad esempio una frase come il ragazzo che Maria ha incontrato ieri è Giovanni.
La frase relativa che Maria ha incontrato ieri è annotata come segue:
sogg (incontrare, Maria)
ogg_d (incontrare, che)
mod (incontrare, ieri)
Le rimanenti relazioni di dipendenza relative alla principale sono riportate di seguito:
sogg (essere, ragazzo)
pred (essere, Giovanni)
sogg (ragazzo, Giovanni)
Un altro importante elemento di informazione linguistica è la relazione tra il pronome relativo
che ed il suo antecedente ragazzo che non viene catturata dall’annotazione riportata sopra. È questa
relazione che permette una interpretazione di ragazzo come l’inteso oggetto diretto di ha incontrato.
Per annotare, in maniera esplicita, la relazione che sussiste tra che e ragazzo introduciamo qui di
seguito una relazione binaria ad hoc chiamata “legame”, il cui primo argomento è costituito
dall’elemento legato (il pronome relativo nel nostro caso) ed il secondo dal nome che lega o
antecedente:
legame (che, ragazzo)
Si noti che l’intesa relazione funzionale tra incontrare e ragazzo può di fatto essere inferita dalla
relazione di legame che c’è tra che e ragazzo.
Passando al caso della ripresa pronominale in costruzioni a dislocazione, si considerino i
seguenti esempi il dolce Maria lo porta domani e Maria lo porta domani, il dolce la cui
rappresentazione in termini funzionali è riportata di seguito:
sogg (portare, Maria)
ogg_d (portare, lo)
mod (portare, domani)
Per annotare la relazione che sussiste tra lo e dolce si ricorre alla stessa relazione di legame, il
cui primo argomento è costituito dall’elemento legato (il pronome clitico nel nostro caso) ed il
secondo dall’elemento dislocato:
legame (lo, dolce)
Anche in questo caso l’intesa relazione funzionale tra portare e dolce può di fatto essere inferita
dalla relazione di legame che c’è tra lo e dolce.
4.1.4.2 Criteri di annotazione per il livello funzionale
Dopo aver illustrato a grandi linee lo schema di annotazione per il livello funzionale, segue una
specifica dei criteri di applicazione di questo schema al testo, ed in particolare a costruzioni
sintattiche che possono porre particolari problemi di annotazione. Questa sezione si propone dunque
D-48
Linea 1.1 - Treebank sintattico-semantica dell'italiano
come guida all’applicazione dello schema proposto, fornendo criteri di identificazione delle
relazioni illustrate sopra e illustrando la rappresentazione di fenomeni sintattici lessicalmente
governati (ad esempio schemi di sottocategorizzazione associati a classi di nomi, verbi e aggettivi)
così come di costruzioni complesse che rispondono a principi generali della grammatica
dell’italiano (ad esempio, costruzioni con frasi relative ed interrogative, fenomeni di ellissi,
relazioni di coreferenza, etc.).
Innanzitutto ci soffermeremo sulla distinzione tra argomenti e modificatori, fornendo criteri
operativi ad uso dell’annotatore (sezione 4.1.4.2.1). Procederemo con una lista di annotazioni di
riferimento, articolata come segue:
•
costruzioni di base, con annotazione delle relazioni di dipendenza e coordinazione (sezione
4.1.4.2.2);
•
costruzioni ellittiche (sezione 4.1.4.2.3);
•
annotazione di relazioni di coreferenza (sezione 4.1.4.2.4).
La lista di annotazioni di riferimento è ovviamente incompleta; il suo fine, al momento, è quello
di dare un’idea di come lo schema proposto possa trovare una sua applicazione su testi reali. Le
frasi annotate sono state estratte, nella maggior parte dei casi, dal corpus che verrà usato per la
Treebank. Nella fase di verifica e di addestramento all’annotazione (ovvero nei primi mesi della
linea 1.2) i criteri di annotazione verranno dettagliati ulteriormente in modo da fornire
all’annotatore una casistica più dettagliata possibile che possa servire da guida affidabile e che
riduca al minimo il margine di arbitrarietà dell’annotazione.
4.1.4.2.1
La distinzione tra argomenti e modificatori
La distinzione tra argomenti e modificatori è gestibile senza particolari difficoltà nell’ambito di
analizzatori sintattici sulla base di un lessico di riferimento contenente informazione sulla
sottocategorizzazione dei predicati. Ma l’annotazione di una Treebank non prevede necessariamente
il ricorso ad un lessico di riferimento. Dietro a questa scelta stanno motivi di varia natura:
1) le risorse lessicali esistenti sono insufficienti per applicazioni su scala reale per copertura del
lessico sia a livello di lemmi che di costruzioni sintattiche associate ad essi;
2) una Treebank è tipicamente usata anche per acquisire informazione di questo tipo, per cui una
proiezione preventiva delle interpretazioni possibili può interferire con i risultati attesi.
La distinzione va dunque demandata all’annotatore del testo, sulla base della sua intuizione. La
difficoltà di questo compito è ripetutamente segnalata nella letteratura sulle Treebank: Marcus et al.
(1994) sottolineano la difficoltà di questa distinzione quando applicata ad un’ampia varietà di verbi
e riferita all’uso reale della lingua.
Per guidare l’annotatore nell’interpretazione dei casi incerti, forniamo qui di seguito una batteria
di criteri ed euristiche basate su test di natura sintattica tratti dalla letteratura corrente in proposito
(Somers 1984, Meyers et al. 1994):
• omissibilità/obbligatorietà - se un costituente nel contesto locale di un verbo non può
essere omesso, allora si tratta di un argomento: ad esempio, in mettere il libro sulla tavola
sia libro che tavola non possono essere omessi (*mettere il libro, *mettere sulla tavola). Si
D-49
Linea 1.1 - Treebank sintattico-semantica dell'italiano
tratta di un criterio affidabile, ma non può essere usato per identificare i modificatori dato
che argomenti di molti verbi possono essere tranquillamente omessi (si veda ad esempio il
caso di mangiare);
• “retroformazioni” - un costituente nel contesto locale di un verbo è un modificatore se può
essere riformulato come una frase subordinata: è morto a Dresda, è morto quando era a
Dresda; vive a Parigi, *vive quando è a Parigi. Si tratta di un criterio di difficile
applicazione dato che molti modificatori non possono essere facilmente riformulati in
termini di una frase subordinata (i bambini giocano oggi, *i bambini giocano quando è
oggi);
• partecipazione ad alternanze di diatesi - nel caso di verbi con alternanza di diatesi, i
costituenti che alternano tra diverse realizzazioni superficiali nelle diverse sono da
considerarsi argomenti. Ad esempio, considerate le frasi ha spalmato il burro sul pane e ha
spalmato il pane con il burro sia burro che pane appaiono essere argomenti di spalmare. Si
tratta di un criterio utile e sufficientemente affidabile a condizione che l’alternanza sia stata
identificata in modo appropriato;
• “fare lo stesso” test - quando fare lo stesso è usato nella coordinazione di frasi come una
proforma del gruppo verbale ripetuto, solo i modificatori possono essere esclusi dalla
sostituzione. Ad esempio, si confrontino: Maria ha incontrato Giovanni a Parigi, e Pietro
ha fatto lo stesso a Milano e *Maria ha messo il libro sulla tavola e Giovanni ha fatto lo
stesso sulla sedia. Il test è affidabile ma solo per una classe di predicati dalla quale
rimangono fuori gli stativi e in ogni caso tutti i predicati con i quali la sostituzione con la
proforma farlo è inaccettabile (*Maria è intelligente e Carlo fa lo stesso, ??Maria conosce
la risposta e Carlo fa lo stesso);
• anteposizione - i costituenti con funzione di modificatori possono essere anteposti
liberamente, mentre gli argomenti possono essere anteposti solo dando luogo a costruzioni
fortemente marcate. Ad esempio, la scorsa settimana ho comprato un libro vs sul pavimento
ho messo il libro. Si tratta di criterio affidabile, senza particolari controindicazioni.
Non è detto che i vari criteri convergano sulla stessa interpretazione. Quando la stessa
interpretazione è supportata da un numero significativo di test tra quelli elencati sopra, si
raccomanda all’annotatore di adottare l’interpretazione per la quale ha raccolto maggiore evidenza.
Per i casi che rimangono incerti si raccomanda si ricorrere alla sottospecificazione dell’analisi,
che nel caso specifico corrisponde alla relazione comp: si può sempre ritornare a rivedere analisi
sottospecificate mentre un’analisi completamente specificata ma erroneamente attribuita diventa più
difficilmente recuperabile e dunque correggibile.
4.1.4.2.2
Costruzioni di base
4.1.4.2.2.1
Costruzioni con verbo intransitivo
Gli uomini parlano e sognano sempre di un miglioramento
sogg (parlare, uomo)
sogg (sognare, uomo)
arg (parlare, miglioramento.<intro=“di”>)
D-50
Linea 1.1 - Treebank sintattico-semantica dell'italiano
arg (sognare, miglioramento.<intro=“di”>)
mod (parlare, sempre)
mod (sognare, sempre)
cong (parlare, sognare)
4.1.4.2.2.2
Costruzioni con verbo intransitivo inaccusativo
Gli studenti erano giunti nella zona alla spicciolata
sogg (giungere, studente)
arg (giungere, zona.<intro=“in”>)
mod (giungere, alla_spicciolata)
Slitta la riunione, prevista per oggi, della cosiddetta commissione Sangalli
sogg (slittare, riunione)
mod (riunione, previsto)
comp (previsto, oggi.<intro=“per”>)
comp (riunione, commissione.<intro=“di”>)
mod (commissione, cosiddetto)
mod (commissione, Sangalli)
4.1.4.2.2.3
Costruzioni con verbo transitivo con oggetto diretto
Carnevale ha sbagliato un gol quasi fatto
sogg (sbagliare, Carnevale)
ogg_d (sbagliare, gol)
mod (gol, fatto)
mod (fatto, quasi)
4.1.4.2.2.4
Costruzioni con verbo transitivo con oggetto indiretto
Gullit ha dichiarato guerra alla stampa sportiva
sogg (dichiarare, Gullit)
ogg_d (dichiarare, guerra)
ogg_i (dichiarare, stampa.<intro=“a”>)
mod (stampa, sportivo)
4.1.4.2.2.5
Costruzioni con verbo transitivo con complemento obliquo
La Bimex importa prodotti dalla Union Carbide
sogg (importare, Bimex)
ogg_d (importare, prodotto)
obl (importare, Union _Carbide.<intro=“da”>)
4.1.4.2.2.6
Costruzioni passive
D-51
Linea 1.1 - Treebank sintattico-semantica dell'italiano
I due malavitosi sono stati spesso segnalati in diverse occasioni
sogg (segnalare.<diat=passivo>, malavitoso)
mod (malavitoso, due)
mod (segnalare, spesso)
mod (segnalare, occasione.<intro=“in”>)
mod (occasione, diverso)
L’accordo è stato firmato ieri al Pentagono dal ministro americano
sogg (firmare.<diat=passivo>, accordo)
mod (firmare, ieri)
mod (firmare, Pentagono.<intro=“a”>)
comp (firmare, ministro.<intro=“da”, ruolo=agente>)
mod (ministro, americano)
Anche se l’annotazione a livello di relazioni riguarda la sintassi di superficie, la rappresentazione
riportata sopra contiene anche indicazione esplicita dell’agente (che viene fornita quando
esplicitamente indicato nella realizzazione superficiale della frase): questa informazione è
convogliata dal tratto ruolo associato all’elemento dipendente della relazione comp, il cui valore
specifica che si tratta dell’agente del firmare.
4.1.4.2.2.7
Costruzioni con completive sottocategorizzate
Un doppio cordone di poliziotti continuava a circondare tutta la piazza
sogg (continuare, cordone)
mod (cordone, doppio)
comp (cordone, poliziotti.<intro=“di”>)
arg (continuare, circondare.<intro=“a”, status=aperto>)
sogg (circondare, cordone)
ogg_d (circondare, piazza)
mod (piazza, tutto)
Un uomo anziano cercava di spiegare che simili azioni non giovano
sogg (cercare, uomo)
mod (uomo, anziano)
arg (cercare, spiegare.<intro=“di”, status=aperto>)
sogg (spiegare, uomo)
arg (spiegare, giovare.<intro=“che”, status=chiuso>)
sogg (giovare, azione)
mod (azione, simile)
mod (giovare, non)
Luigi ha visto Paolo uscire dal casolare
sogg (vedere, Luigi)
ogg_d (vedere, Paolo)
arg (vedere, uscire.<status=aperto>)
sogg (uscire, Paolo)
D-52
Linea 1.1 - Treebank sintattico-semantica dell'italiano
arg (uscire, casolare.<intro=“da”>)
Giovanni ha visto Maria correre
sogg (vedere, Giovanni)
ogg_d (vedere, Maria)
arg (vedere, correre.<status=aperto>)
sogg (correre, Maria)
Che i governi europei debbano silenziosamente ingoiarle non è giusto
sogg (essere, ingoiare.<intro=“che”, status=chiuso, perifra=“dovere”>)
pred (essere, giusto)
mod (essere, non)
sogg (ingoiare, governo)
mod (governo, europeo)
ogg_d (ingoiare, le)
mod (ingoiare, silenziosamente)
sogg (ingoiare, giusto)
4.1.4.2.2.8
Costruzioni con modificazione frasale (gerundive, participiali, infinitive)
Dobbiamo vincere domenica per interrompere questo brutto momento
sogg (vincere<perifra=“dovere”>, .<pers=1,num=plur> )
mod (vincere, domenica)
mod (vincere, interrompere.<intro=“per”,status=aperto>)
ogg_d (interrompere, momento)
mod (momento, questo)
mod (momento, brutto)
Il Ministero della Difesa esce allo scoperto per smentire infondate speculazioni
sogg (uscire, Ministero)
mod (ministero, Difesa.<intro=“di”>)
mod (uscire, allo_scoperto)
mod (uscire, smentire.<intro=“per”,status=aperto>)
sogg (smentire, Ministero)
ogg_d (smentire, speculazione)
mod (speculazione, infondato)
Gli evasori hanno aggredito gli agenti di custodia sparando all’impazzata
sogg (aggredire, evasore)
ogg_d (aggredire, agente)
mod (agente, custodia.<intro=“di”>)
mod (aggredire, sparare.<modo=gerundio,status=aperto>)
mod (sparare, all’_impazzata)
4.1.4.2.2.9
Costruzioni con complementi predicativi del soggetto e dell’oggetto
D-53
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Maria è diventata una bella ragazza
sogg (diventare, Maria)
pred (diventare, ragazza)
mod (ragazza, bello)
sogg (ragazza, Maria)
Maria sembra infelice
sogg (sembrare, Maria)
pred (sembrare, infelice)
sogg (infelice, Maria)
Giovanni considera Maria una bella ragazza
sogg (considerare, Giovanni)
ogg_d (considerare, Maria)
pred (considerare, ragazza)
mod (ragazza, bello)
sogg (ragazza, Maria)
Lui considera il loro strumento di ricerca un modo di fare soldi rapidamente
sogg (considerare, lui)
ogg_d (considerare, strumento)
mod (strumento, loro)
mod (strumento, ricerca.<intro=“di”>)
pred (considerare, modo)
arg (modo, fare.<intro=“di”,status=aperto>)
ogg_d (fare, soldo)
mod (fare, rapidamente)
sogg (modo, strumento)
Brancati considerava i siciliani il popolo più intelligente d’Europa
sogg (considerare, Brancati)
ogg_d (considerare, siciliano)
pred (considerare, popolo)
mod (popolo, intelligente)
mod (intelligente, più)
comp (intelligente, Europa.<intro=“di”>)
sogg (popolo, siciliano)
Come si può notare dall’analisi e dal confronto delle frasi annotate riportate sopra, a livello della
relazione assegnata – pred - non si fa distinzione tra complemento predicativo del soggetto e
dell’oggetto. Questa informazione è comunque implicita nell’annotazione globale della frase:
quando dalla testa verbale del complemento predicativo dipenda anche un oggetto diretto (ogg_d),
la relazione pred è da interpretarsi come predicativa dell’oggetto; in caso contrario, il complemento
predicativo si riferisce al soggetto.
Inoltre, da un’analisi attenta dell’annotazione proposta dovrebbe risultare evidente la sua
compatibilità sia con schemi che marcano la dipendenza tra il complemento predicativo e la testa
D-54
Linea 1.1 - Treebank sintattico-semantica dell'italiano
verbale, sia con interpretazioni che guardano al complemento predicativo in termini di frase ridotta
governata dalla testa verbale.
4.1.4.2.2.10
Complementazione di nomi e aggettivi
Eriksson non ha idea della piega inferta alla nostra penisola
sogg (avere, Eriksson)
ogg_d (avere, idea)
mod (avere, non)
comp (idea, piega.<intro=“di”>)
mod (piega, inferto)
arg (inferto, penisola.<intro=“a”>)
mod (penisola, nostro)
Viola deve fare esperienza sui pedatori a disposizione e sui tecnici
sogg (fare.<perifra=“dovere”>, Viola)
ogg_d (fare, esperienza)
arg (esperienza, pedatore.<intro=“su”>)
mod (pedatore, a_disposizione )
arg (esperienza, tecnico.<intro=“su”>)
cong (pedatore, tecnico)
Il Parlamento incomincerà un dibattito sulla partecipazione al programma
sogg (incominciare, Parlamento)
ogg_d (incominciare, dibattito)
comp (dibattito, partecipazione.<intro=“su”>)
arg (partecipazione, programma.<intro=“a”>)
Fonti dell’amministrazione hanno auspicato un’intesa con il governo
sogg (auspicare, fonte)
mod (fonte, amministrazione.<intro=“di”>)
ogg_d (auspicare, intesa)
arg (intesa, governo.<intro=“con”>)
La società sarà integrata con il settore cucine della Candy
sogg (integrare.<diat=passivo>, società)
obl (integrare, settore.<intro=“con”>)
mod (settore, cucina)
comp (settore, Candy.<intro=“di”>)
La credenza che la Terra sia rotonda è radicata
sogg (essere2, credenza)
pred (essere2, radicato)
sogg (radicato, credenza)
D-55
Linea 1.1 - Treebank sintattico-semantica dell'italiano
arg (credenza, essere1.<status=chiuso, intro=“che”>)
sogg (essere1, Terra)
pred (essere1, rotondo)
sogg (rotondo, Terra)
4.1.4.2.2.11
Negazione
Io non mangio panini con la mortadella
sogg (mangiare, io)
mod (mangiare, non)
ogg_d (mangiare, panino)
mod (panino, mortadella.<intro=“con”>)
I bambini non devono guardare film violenti
sogg (guardare.<perifra=“dovere”>, bambino)
mod (guardare, non)
ogg_d (guardare, film)
mod (film, violento)
4.1.4.2.2.12
Costruzioni esistenziali
C’è una vespa nella mia camera
mod (essere, ci)
sogg (essere, vespa)
mod (essere, camera.<intro=“in”>)
mod (camera, mia)
Paolo ha visto che c’era Maria con Luigi
sogg (vedere, Paolo)
arg (vedere, essere.<intro=“che”, status=chiuso>)
mod (essere, ci)
sogg (essere, Maria)
mod (essere, Luigi.<intro=“con”>)
4.1.4.2.2.13
•
Costruzioni coordinate
Coordinazione di soggetti
I superstiti e i parenti delle vittime hanno espresso malumore per la scarcerazione
sogg (esprimere, superstite)
sogg (esprimere, parente)
cong (superstite, parente)
comp (parente, vittima.<intro=“di”>)
ogg_d (esprimere, malumore)
mod (malumore, scarcerazione.<intro=“per”>)
D-56
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
Frasi composte con proposizioni coordinate
La donna sbrigava le faccende di casa e doveva avere familiarità con i cani
sogg (sbrigare, donna)
ogg_d (sbrigare, faccenda)
mod (faccenda, casa.<intro=“di”>)
sogg (avere.<perifra=“dovere”>, donna)
ogg_d (avere.<perifra=“dovere”>, familiarità)
comp (familiarità, cane.<intro=“con”>)
cong (sbrigare, avere.<perifra=“dovere”>)
•
Coordinazione aggettivale
Il fatturato complessivo delle società controllate e collegate è elevato
sogg (essere, fatturato)
mod (fatturato, complessivo)
mod (fatturato, società.<intro=“di”>)
mod (società, controllato)
mod (società, collegato)
cong (controllato, collegato)
pred (essere, elevato)
sogg (elevato, fatturato)
•
Coordinazione di complementi
Tale incremento è dovuto all’aumento di capitale, all’utile d’esercizio ed ai contributi per
l’editoria
sogg (essere, incremento)
mod (incremento, tale)
pred (essere, dovuto)
sogg (dovuto, incremento)
arg (dovuto, aumento.<intro=“a”>)
comp (aumento, capitale.<intro=“di”>)
arg (dovuto, utile.<intro=“a”>)
mod (utile, esercizio.<intro=“di”>)
arg (dovuto, contributo.<intro=“a”>)
comp (contributo, editoria.<intro=“per”>)
cong (aumento, utile)
cong (utile, contributo)
Il mundial di calcio termina con la finalissima di domenica sera e con i risultati conosciuti
sogg (terminare, mundial)
mod (mundial, calcio.<intro=“di”>)
comp (terminare, finalissima.<intro=“con”>)
mod (finalissima, domenica.<intro=“di”>)
mod (domenica, sera)
comp (terminare, risultato.<intro=“con”>)
mod (risultato, conosciuto)
cong (finalissima, risultato)
D-57
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.1.4.2.2.14
Condivisione di complementi in costruzioni coordinate
L’assemblea di ieri ha confermato Eugenio Scalfari ed ha deliberato di aumentare il
numero dei consiglieri
sogg (confermare, assemblea)
mod (assemblea, ieri.<intro=“di”>)
ogg_d (confermare, Eugenio_Scalfari)
sogg (deliberare, assemblea)
arg (deliberare, aumentare.<status=aperto, intro=“di”>)
sogg (aumentare, assemblea)
ogg_d (aumentare, numero)
arg (numero, consigliere.<intro=“di”>)
cong (confermare, deliberare)
Questo esempio illustra la strategia che intendiamo adottare nell’ambito della Treebank di SITAL per l’annotazione di argomenti o modificatori condivisi da più di una testa in strutture
coordinate. Si può notare che l’annotazione di complementi condivisi non costituisce particolare
problema nell’ambito di uno schema di rappresentazione funzionale, al contrario dei problemi
invece tipicamente posti da complementi condivisi a livello di rappresentazione a costituenti.
4.1.4.2.3
Costruzioni ellittiche
Questa sezione illustra la strategia di annotazione di costruzioni ellittiche messa a punto per la
Treebank di SI-TAL. Negli esempi riportati finora, le relazioni funzionali riguardano istanze di
parole in un testo. Le costruzioni ellittiche, d’altra parte, sembra che richiedano che le relazioni
funzionali debbano essere stabilite tra un’istanza di una parola ed un tipo astratto, definito mediante
tratti o mediante un tipo lessicale.
4.1.4.2.3.1
Ellissi del soggetto
Ho visto Maria uscire di casa
sogg (vedere, .<pers=1, num=sing> )
ogg_d (vedere, Maria)
arg (vedere, uscire.<status=aperto>)
sogg (uscire, Maria)
arg (uscire, casa.<intro=“di”>)
Abbiamo visto l’opera nella piazza del paese
sogg (vedere, .<pers=1, num=plur> )
ogg_d (vedere, opera)
mod (vedere, piazza.<intro=“in”>)
mod (piazza, paese.<intro=“di”>)
4.1.4.2.3.2
Ellissi del verbo
Si consideri l’esempio che segue:
Gli esempi sono scritti in corsivo, le glosse in stampatello
D-58
Linea 1.1 - Treebank sintattico-semantica dell'italiano
sogg (scrivere.<diat=passivo>, esempio)
mod (scrivere, corsivo.<intro=“in”>)
sogg (SCRIVERE.<diat=passivo>, glossa)
mod (SCRIVERE, stampatello.<intro=“in”>)
dove glossa e stampatello sono rispettivamente soggetto e modificatore di un tipo astratto che
non ha alcuna istanziazione nel testo, corrispondente al lemma scritto in maiuscolo, ovvero
SCRIVERE.
Seguono altri esempi di costruzioni ellittiche e relativa annotazione secondo lo schema proposto.
La ballata di Mackie Messer è cantata da Sting, Jenny dei pirati dalla Nannini
sogg (cantare.<diat=passivo>, ballata)
mod (ballata, Mackie_Messer.<intro=“di”>)
comp (cantare, Sting.<intro=“da”,ruolo=agente>)
sogg (CANTARE.<diat=passivo>, Jenny)
mod (Jenny, pirata.<intro=“di”>)
comp (CANTARE, Nannini.<intro=“da”,ruolo=agente>)
Molti diranno che è il trionfo della marcatura a uomo, io no
sogg (dire, molto)
arg (dire, essere.<intro=“che”, status=chiuso>)
pred (essere, trionfo)
comp (trionfo, marcatura.<intro=“di”>)
mod (marcatura, a_uomo)
sogg (DIRE, io)
comp (DIRE, no)
Gli esempi riportati fino a questo punto presentano casi di ellissi in strutture coordinate, dove nel
secondo congiunto si osserva l’omissione del verbo. Nell’annotazione proposta le relazioni di
dipendenza del secondo congiunto fanno riferimento ad una testa verbale astratta, ricostruita a
partire dall’analisi del primo congiunto. Ma non è sempre il caso che il materiale ellittico sia
ricostruibile dall’analisi della frase. Si consideri ad esempio il caso seguente, che presenta l’ellissi
della copula:
Queste le principali raccomandazioni rivolte all’Italia dalla commissione europea
sogg ( , questo)
pred ( , raccomandazione)
mod (raccomandazione, principale)
mod (raccomandazione, rivolgere.<modo=part_pass,diatesi=passivo>)
ogg_i (rivolgere, Italia.<intro=“a”>)
comp (rivolgere, commissione.<intro=“da”,ruolo=agente>)
mod (commissione, europeo)
L’annotazione riportata sopra contiene due relazioni di dipendenza la cui testa non è specificata;
bisognerà valutare se per casi come questo sia legittimo ricostruire una testa astratta – ESSERE –
oppure se sia opportuno lasciarla non specificata (in quest’ultimo caso la relazione non riguarda più
due elementi lessicali).
D-59
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.1.4.2.4
Annotazione di relazioni di coreferenza
L’annotazione delle relazioni di coreferenza è esemplificata mediante il caso delle frasi relative:
Prost lascia la McLaren per una Ferrari che non cammina
sogg (lasciare, Prost)
ogg_d (lasciare, McLaren)
obl (lasciare, Ferrari.<intro=“per”>)
sogg (camminare, che)
mod (camminare, non)
legame (che, Ferrari)
Il presidente ha indicato le imprese italiane che producono e importano energia
sogg (indicare, presidente)
ogg_d (indicare, impresa)
mod (impresa, italiano)
sogg (produrre, che)
sogg (importare, che)
ogg_d (produrre, energia)
ogg_d (importare, energia)
cong (produrre, importare)
legame (che, impresa)
4.2
Interrelazioni tra i due livelli di annotazione sintattica
Una volta che gli schemi di annotazione per i due livelli sintattici sono stati definiti nei dettagli è
possibile renderne esplicite le interrelazioni in vista a) di una correzione dei materiali annotati della
Treebank e b) della creazione di “viste” sui materiali che combinino l’informazione funzionale con
quella relativa ai costituenti. Infatti, i due livelli di annotazione sintattica della Treebank di SI-TAL
possono essere sia visti come indipendenti, sia come complementari e dunque combinabili in una
rappresentazione unica.
Si consideri, come esempio, la proiezione dell’informazione funzionale sull’annotazione a
costituenti per la seguente frase:
Giovanni sembra arrivare domani
la cui rappresentazione in termini di costituenti è la seguente:
f-[
sn-[npro-Giovanni],
ibar-[vc-sembra],
sv2-[ viin-arrivare,
savv-[avv-domani]]]
e la cui rappresentazione funzionale è:
sogg (sembrare, Giovanni)
arg (sembrare, arrivare.<status=aperto>)
mod (arrivare, domani)
[sogg (arrivare, Giovanni)]
D-60
Linea 1.1 - Treebank sintattico-semantica dell'italiano
dove la relazione di soggetto tra arrivare e Giovanni è riportata tra parentesi quadre in quanto
esclusa da questa proiezione tra livelli dato che non trova una controparte al livello della
rappresentazione a costituenti. Il risultato della proiezione dell’informazione funzionale
sull’annotazione a costituenti è riportato di seguito:
f-[
sn-sogg[npro-Giovanni],
ibar-[vc-sembra],
sv2-arg[
viin-arrivare,
savv-mod[avv-domani]]]
dove ogni categoria sintattica è suffissata, ove possibile, con una marca di tipo funzionale.
Questa operazione di proiezione può essere un valido aiuto per verificare sia la coerenza
dell’annotazione tra i due livelli di annotazione sintattica della Treebank di SI-TAL sia per testare la
coerenza interna al singolo livello. Quindi le specifiche relative alle interrelazioni tra i due livelli di
annotazione sintattica sono da vedersi come propedeutiche alla fase di validazione dei materiali, in
particolare alla verifica della coerenza interna al singolo livello e tra i due livelli di annotazione
(quest’ultima cruciale nella prospettiva della creazione di “viste” combinate sul materiali annotati
come esemplificato sopra). Queste specifiche verranno dettagliate nell’ambito della linea 1.2 del
progetto.
4.3
Specifiche di annotazione per il livello semantico-lessicale
L’annotazione semantico-lessicale di un testo ha per scopo l’assegnazione a ciascuna parola
(semanticamente) piena del testo stesso di un senso presente nella risorsa lessicale di riferimento
che nel nostro caso è ItalWordNet (IWN). Ciò presuppone l’interpretazione del senso della parola a
partire dal contesto o, in altri termini, l’identificazione di quale senso tra quelli riportati per un
lemma in IWN è istanziato in un dato contesto del corpus.
Nella Treebank di SI-TAL l’annotazione semantico-lessicale consiste nell’assegnazione a tutti i
verbi, nomi e aggettivi di:
i.
un numero di senso presente in IWN (o una sequenza congiunta o disgiunta di sensi quando
più sensi di IWN possono essere applicati congiuntamente o disgiuntamente alla stessa
occorrenza);
ii.
tratti, espressi in termini di coppie attributo/valore, di due tipi:
•
di tipo semantico, che convogliano informazioni semantico-lessicali (es. per
contraddistinguere gli idiomi, le metafore, ecc.);
•
ad uso dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per
segnalare casi dubbi, ecc.).
Le specifiche che seguono costituiscono l’ossatura portante dello schema di annotazione per
questo livello. Esse sono suscettibili di integrazioni (soprattutto per quanto riguarda i valori da
associare agli attributi previsti) nella fase di verifica dello schema di annotazione all’inizio della
linea 1.2..
D-61
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.3.1.1 L’input all’annotazione semantico-lessicale
L’annotazione semantico-lessicale presuppone un testo già annotato a livello morfo-sintattico (si
veda sezione 2). Pertanto, il testo di input al livello semantico-lessicale contiene i seguenti tipi di
informazione:
•
la parte del discorso 1 ;
•
tratti morfo-sintattici;
•
informazioni relative alla struttura del testo (paragrafo, titolo ecc.);
•
espressioni complesse già trattate come una unica unità ai livelli di annotazione precedenti, ad
esempio nomi propri (es. Giulio_Andreotti), alcuni composti (es. carta_di_credito), espressioni
idiomatiche rigide e non soggette a variazione (es. ad_hoc), date (es. il_10_giugno_del_1961)
ecc..
4.3.1.2 L’annotazione semantico-lessicale: elementi e tratti descrittivi
L’annotazione semantico-lessicale identifica delle unità di senso che possono corrispondere a:
•
•
singole parole ortografiche (un singolo S, V o A);
due o più parole ortografiche nel caso di espressioni polilessicali (o multiwords) che
compongono una unica unità di senso (es. composti, idiomi ecc.).
Gli elementi annotati a livello semantico sono di tre tipi:
•
•
•
<us (unità di senso)
<usc (unità semantica di tipo complesso)
<ust (unità semantica di tipo titolo)
L’elemento <us punta ad una singola parola, mentre l’elemento <usc punta a più parole del testo
di input, ovvero ad un’espressione polilessicale.
Infine l’elemento <ust può puntare sia ad una singola parola che a più parole e serve per
annotare e differenziare i titoli di libri, giornali, spettacoli ecc. rispetto alla parte restante del
contesto.
Al contrario dell’elemento <us che può riferirsi solo a parole piene del testo (Sostantivi, Verbi o
Aggettivi), sia <usc che <ust possono includere anche a parole grammaticali (es. preposizioni,
articoli, ecc.) facenti parte dell’espressione. Es.:
•
•
<usc: mettere a ferro e fuoco
<ust: Il nome della rosa
1
La parte del discorso distingue l’unità lessicale da parole omografe che appartengono a categorie sintattiche
diverse. Da un punto di vista pratico, questa informazione semplifica l’annotazione a livello semantico-lessicale
consentendo l’immediata identificazione delle parole piene che in SI-TAL devono essere annotate semanticamente
(sostantivi, verbi e aggettivi), e l’esclusione a priori dei casi in cui l’unità lessicale fa parte di una espressione più
complessa che tuttavia non è una parte del discorso da annotare semanticamente (es. in merito a, allo scopo di, ecc.).
D-62
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Tutti i tipi di elementi semantici (<us, <usc e <ust) sono descritti dagli attributi ns (numero di
senso) e lem (lemma), mentre ciascuno di essi è ulteriormente descritto da altri attributi specifici
che saranno successivamente illustrati.
Quindi gli attributi comuni a tutti e tre gli elementi sono:
•
ns (numero di senso): esso consente di specificare il numero di senso presente in IWN o
l’eventuale assenza del senso;
•
lem (lemma): esso consente di specificare il lemma dell’occorrenza che si sta annotando a
livello semantico-lessicale. Va precisato che tale lemma è già presente nel formato di input
all’annotazione semantico-lessicale ma deve, invece, essere specificato per le espressioni
polilessicali riconosciute ed annotate come tali a questo livello e per i titoli.
I possibili valori dell’attributo ns sono:
•
un numero di senso 2 ;
•
due o più numeri di senso congiunti attraverso l’utilizzo dell’operatore logico di
congiunzione (S1&S2) nei casi in cui più di un senso di IWN si applichi al contesto specifico
(per esempi relativi a questo caso si rinvia alla sezione 4.3.2.6.3 relativa alla
“Corrispondenza con più sensi dello stesso lemma”);
•
due sensi disgiunti attraverso l’utilizzo dell’operatore logico di disgiunzione (S1|S2) nei casi
in cui il contesto non fornisca informazione sufficiente per poter decidere tra diversi sensi
attestati in IWN (il caso di ambiguità del contesto è illustrato nella sezione 4.3.2.6.3);
•
il valore no_senso quando la risorsa lessicale di riferimento, ovvero IWN, non registra il
senso attestato nel contesto in corso di annotazione; si tratta di un valore provvisorio, che
verrà ridefinito dall’annotatore una volta che la risorsa lessicale di riferimento sarà stata
integrata con il senso mancante;
•
il valore no_lemma quando la risorsa lessicale di riferimento, ovvero IWN, non registra il
lemma dell’occorrenza in corso di annotazione; si tratta di un valore provvisorio, che verrà
ridefinito dall’annotatore una volta che la risorsa lessicale di riferimento sarà stata integrata
con l’informazione mancante;
•
il valore no viene assegnato per i lemmi di cui non è previsto l’inserimento in IWN. Ciò si
verifica essenzialmente in tre casi, ovvero, con:
1. alcuni nomi propri (ad esempio, di persona);
2. titoli in generale (di giornale o rivista, ecc.);
3. parole straniere non entrate nell’uso corrente dell’italiano.
Consideriamo in dettaglio ciascun elemento e i tratti che lo descrivono.
2
Va ricordato che il numero di senso è anche la chiave d’accesso ad un insieme di sinonimi, o “synset” secondo la
terminologia di WordNet.
D-63
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.3.1.2.1
L’elemento <us
L’elemento <us descrive unità di senso che si riferiscono a parole singole appartenenti alle
seguenti categorie: nome, verbo e aggettivo.
L’elemento <us è descritto sempre dall’attributo ns.
L’elemento <us può essere descritto anche dai seguenti attributi:
•
•
•
alter
fig
np
il cui significato e la cui sintassi sono dettagliati di seguito.
4.3.1.2.1.1
alter
L’attributo alter (alterazione) viene usato nella descrizione di <us nel caso in cui la parola in
corso di annotazione sia un alterato o un aggettivo superlativo o comparativo: esso consente di
segnalare la presenza di un suffisso alterativo (e di specificarne il tipo) o del suffisso per la
formazione del superlativo o la presenza di un comparativo. I suoi possibili valori sono:
•
dim per i diminutivi;
•
accr per gli accrescitivi;
•
dispr per i dispregiativi;
•
vezz per i vezzeggiativi;
•
sup per gli aggettivi superlativi;
•
compar per gli aggettivi comparativi;
•
alter valore sottospecificato per i casi diversi dai precedenti.
Nel caso degli alterati, l’attributo alter può ricevere un valore unico (es. alter=dim) oppure una
coppia di valori (nel caso in cui sia utilizzato più di un suffisso alterativo) che vanno specificati
rispettando l’ordine in cui sono combinati nell’occorrenza che si sta annotando (es. alter=dispr,accr
per la parola omaccione). Il valore “alter” va utilizzato per i casi in cui tutti gli altri valori non sono
applicabili.
4.3.1.2.1.2
fig
Si ricorre all’attributo fig (figurato) nel caso in cui si sia in presenza di un uso figurato non
lessicalizzato del senso di una singola parola. Si noti che la casistica di fig è suscettibile di
modifiche o integrazioni in fase di verifica delle specifiche dell’annotazione semantico-lessicale,
ovvero all’inizio della linea 1.2.
I valori che possono essere assegnati a fig sono:
D-64
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
metaf per gli usi metaforici;
•
meton per gli usi metonimici;
•
fig valore sottospecificato per marcare casi di usi figurati diversi dai precedenti.
4.3.1.2.1.3
np
Quando si è in presenza di un nome proprio di persona, gruppo, luogo o prodotto, la descrizione
di <us include anche l’attributo np (nome proprio), che consente di ricondurre il nome proprio ad
una specifica classe semantica di IWN (es. quella di “persona”).
I valori di questo attributo previsti ad oggi sono:
•
pers per i nomi propri di persona;
•
grup per i nomi propri che si riferiscono a gruppo di persone;
•
luogo per i nomi propri di luogo;
•
man (manufatto) per i nomi propri di prodotti e manufatti in generale;
•
np valore sottospecificato per indicare i casi diversi dai precedenti.
Va prevista la possibilità di avere una congiunzione/disgiunzione di valori per i casi in cui non
sia chiaro il referente del nome proprio (es. FIAT come “grup|luogo”).
4.3.1.2.1.4
Sommario dei tratti che descrivono <us
La tabella che segue riporta la tipologia di attributi, con i relativi valori, che possono essere usati
nella descrizione al livello semantico-lessicale di una unità di senso di tipo <us. Gli attributi
evidenziati in grassetto sono da specificarsi obbligatoriamente nella descrizione di ogni unità di
senso.
Tabella riassuntiva dei tratti che descrivono l’elemento <us e
relativi valori
ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no
lem=LEMMA
alter=dim, accr, dispr, vezz, sup; compar; alter
fig= metaf, meton, fig
np=pers, grup, luogo, man, np
D-65
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.3.1.2.2
L’elemento <usc
L’elemento <usc serve per annotare espressioni polilessicali (genericamente denotate in inglese
come multi-word expressions). Una <usc copre almeno due parole grafiche (possono essere incluse
parole diverse da nomi, verbi e aggettivi) che facciano parte dell’espressione stessa.
Le espressioni polilessicali si distinguono in “continue” e “discontinue”.
Si parla di espressioni continue quando sono composte da più unità ortografiche adiacenti senza
nessuna interruzione, mentre nel caso opposto si parla di espressioni discontinue.
Per questa ragione una unità di senso complessa (<usc) può riferirsi a più parole ortografiche che
risultano separate tra loro da una serie variabile di altre parole e, talvolta, addirittura invertite
nell’ordine come mostrano gli esempi seguenti:
•
discontinuità: (es. mettere (tutto) per iscritto);
•
inversione: (es. ‘Traguardi ambiziosi, insomma, che la Consulta delle professioni non
regolamentate, insediatasi ieri a Villa Lubin, è comunque convinta di riuscire a tagliare’).
Le espressioni continue sono in prevalenza nomi composti e in generale sequenze senza verbo,
mentre quelle discontinue possono essere idiomi e costruzioni con verbi supporto e più in generale
espressioni che includono un verbo.
L’annotazione delle espressioni polilessicali non presuppone l’annotazione semantico-lessicale
dei suoi singoli componenti. Da un punto di vista linguistico ciò è giustificato dal fatto che tali
espressioni non sono in molti casi composizionali semanticamente (o lo sono solo parzialmente) e
talvolta appare difficile o addirittura impossibile assegnare un senso, tra quelli attestati nella risorsa
lessicale di riferimento, ai suoi componenti (es. si pensi all’aggettivo rosa nella sequenza cronaca
rosa).
Come nel caso precedente, l’elemento <usc è innanzitutto descritto dagli attributi ns e lem.
Un elemento di tipo <usc può essere ulteriormente descritto dai seguenti attributi:
•
•
tipousc
fig
il cui significato e la cui sintassi sono dettagliati di seguito.
4.3.1.2.2.1
tipousc
L’attributo tipousc (tipo di unità semanticamente complessa) consente di specificare quale tipo
di espressione polilessicale sia in corso di annotazione (es. idioma, composto o costruzione con
verbo supporto).
I suoi possibili valori sono (per gli esempi relativi a ciascuno dei seguenti casi si rinvia alla
sezione 4.3.2.2 relativa ai “Criteri di annotazione delle <usc”):
•
idioma per annotare le espressioni idiomatiche;
•
comp per annotare i composti;
D-66
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
vsup per annotare le espressioni a verbo supporto;
•
tipousc per l’annotazione di eventuali formule di routine (es. per così dire, si fa per dire),
ecc.
4.3.1.2.2.2
fig
L’attributo fig va sempre specificato nei casi di <us, come abbiamo visto, mentre nel caso delle
<usc, la specifica di uso figurato (convogliata dall’attributo fig(urato) ) è da intendersi limitata ai
composti (es. mettere a fuoco il problema). I valori che fig può assumere sono (per gli esempi
relativi a ciascuno dei seguenti casi si rinvia alla sezione 4.3.2.4 relativa a “Gli usi figurati”):
•
metaf per gli usi metaforici;
•
meton per gli usi metonimici;
•
fig per gli altri casi.
4.3.1.2.2.3
Sommario dei tratti che descrivono <usc
La tabella che segue riporta la tipologia di attributi, con i relativi valori, che possono essere usati
nella descrizione al livello semantico-lessicale di una unità di senso di tipo <usc. Gli attributi
evidenziati in grassetto sono sempre inclusi nella descrizione di una <usc.
Tabella riassuntiva dei tratti che descrivono l’elemento <usc e
relativi valori
ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no
lem=LEMMA
tipousc=idioma, comp, vsup, tipousc
fig=metaf, meton, fig
4.3.1.2.3
L’elemento <ust
L’elemento <ust (unità semantica di tipo titolo) serve per annotare i titoli e differenziarli dalla
parte restante del contesto. Esso può riferirsi:
•
ad una singola parola quando il titolo è composto da una singola parola;
•
ad almeno due parole adiacenti (i titoli sono delle espressioni sempre continue), incluse
eventuali parole grammaticali (es. La Stampa).
L’elemento <ust non riceve nessun numero di senso (cioè ns=no) poichè non è previsto
l’inserimento dei titoli in IWN. Il titolo e’ specificato al livello dell’attributo lem.
D-67
Linea 1.1 - Treebank sintattico-semantica dell'italiano
L’elemento <ust è ulteriormente descritto dall’attributo tipot (tipo di titolo) che specifica il tipo
di entità alla quale il titolo si riferisce. I suoi possibili valori ad oggi sono (eventuali integrazioni
saranno possibili in fase di verifica dello schema di annotazione):
•
semiotico per i titoli di un testo scritto (giornale, libro ecc.);
•
spettacolo per i nomi di spettacoli;
•
tipot per casi diversi dai precedenti;
•
indef (indefinito) quando non si può desumere l’informazione dal contesto e l’annotatore non
lo sa.
4.3.1.2.3.1
Sommario dei tratti che descrivono <ust
La tabella che segue riporta la tipologia di attributi, con i relativi valori, che possono essere usati
nella descrizione al livello semantico-lessicale di una unità di senso di tipo <ust. Si noti che in
questo caso tutti gli attributi della tabella sono da specificarsi obbligatoriamente.
Tabella riassuntiva dei tratti che descrivono l’elemento <ust e
relativi valori
ns=no
lem=LEMMA
tipot=semiotico, spettacolo, tipot, indef.
4.3.1.2.4
Altri tratti che possono essere usati nella definizione di unità di senso
Come segnalato in precedenza, l’annotazione a questo livello può anche includere tratti ad uso
dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per segnalare casi dubbi,
ecc.). Di conseguenza, le precedenti tabelle devono essere integrate con una lista di tratti non
relativi alla semantica della parola da annotare ma concernenti l’annotazione stessa. Essi possono
essere assegnati a tutti e tre gli elementi definiti in precedenza.
Gli attributi relativi all’annotazione sono i seguenti:
•
•
nota per segnalare i casi dubbi. I suoi possibili valori sono:
• sn_indist (senso indistinto) nel caso di dubbio di interpretazione dei sensi di IWN;
• sn_inc (senso incerto) per segnalare la necessità di rivedere/ricontrollare l’annotazione;
comm (commento): per inserire un commento ad uso dell’annotatore. Il valore di questo
attributo è una stringa di commento.
4.3.1.2.4.1
Sommario dei tratti relativi all’annotazione
D-68
Linea 1.1 - Treebank sintattico-semantica dell'italiano
La tabella che segue riporta gli attributi relativi all’annotazione che possono essere usati nella
descrizione di qualsiasi tipo di unità di senso.
Tabella riassuntiva dei tratti relativi all’annotazione
nota=sn_indist, sn_inc
comm= stringa di commento
4.3.1.2.5
Tabella sinottica dei tratti per l’annotazione semantico-lessicale
La tabella che segue riporta tutti gli attributi dell’annotazione semantico-lessicale,
specificandone la tipologia di valori e la loro rilevanza nella descrizione dei diversi tipi di unità di
senso (ovvero, <us, <usc e <ust).
Tratto
<us
<usc
<ust
ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no
X
X
X
lem=LEMMA
X
X
X
alter=dim, accr, dispr, vezz, sup, compar, alter
X
fig= metaf, meton, fig
X
np=pers, grup, luogo, man, np
X
tipousc=idioma, comp, vsup, tipousc
X
X
tipot=semiotico, spettacolo, tipot, indef.
X
nota=sn_indist, sn_inc
X
X
Comm= stringa di commento
X
X
X
4.3.2 Criteri di annotazione
Nelle sezioni che seguono vengono forniti criteri guida per l’annotazione semantico-lessicale.
Questi criteri verranno testati ed integrati nella fase di verifica delle specifiche di annotazione.
4.3.2.1 Criteri di annotazione delle <us
Con riferimento all’elemento <us, nel presente paragrafo, sono forniti i criteri per l’annotazione
di fenomeni come l’alterazione e per il trattamento delle parole straniere e dei nomi propri.
4.3.2.1.1
Alterati e aggettivi superlativi
D-69
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Con alterati ci riferiamo ai lemmi modificati semanticamente con l’aggiunta di suffissi cosidetti
‘valutativi’ o ‘alterativi’ (Scalise, 1995). Sulla base del loro significato, i suffissi si possono
distinguere in:
•
diminutivo (-ino);
•
accrescitivo (-one);
•
dispregiativo (-accio);
•
vezzeggiativo (-uccio, -etto).
I suffissi alterativi possono essere utilizzati in modo cumulativo (es. passettino attestato nel
corpus della Treebank).
Data la rilevanza semantica dell’alterazione e il fatto che spesso non c’è un esatto equivalente in
altre lingue (es. tavolone = big table) appare opportuno marcarla in modo particolare a questo
livello di annotazione, distinguendo tra alterati lessicalizzati e alterati non lessicalizzati. I primi, che
dovrebbero essere presenti nel database lessicale di IWN, ricevono il numero di senso
corrispondente mentre i secondi sono ricondotti al lemma non alterato in IWN. In entrambi i casi gli
alterati sono contrassegnati dall’attributo alter che indica la presenza del suffisso alterativo. Il tipo
di alterazione può essere specificato attraverso i seguenti possibili valori: “dim”, “accr”, “disp”,
“vezz”.
Il caso della doppia alterazione, si marca con l’assegnazione di due valori successivi per ordine
di occorrenza (es. passettino -> alter=vezz,dim).
La distinzione tra alterato lessicalizzato e non lessicalizzato può essere fatta sulla base della sua
presenza o meno in IWN o in altri dizionari dell’italiano assunti come punto di riferimento.
Diamo qui di seguito alcuni esempi tratti dal corpus di SI-TAL:
Tipi di alterazione
dim
accr
disp
vezz
non-lessicalizzato
appartamentino
bacino
paesino
Concertone
filmetto
gruppetto
lavoretto
pupazzetto
vizietto
dittatorello
lessicalizzato
(Dizionario di riferimento:
Garzanti 1994)
cappellino
finestrino
palloncino
colpaccio
pozzetto
Per quanto riguarda gli aggettivi, a livello semantico-lessicale appare opportuno segnalare la
presenza del suffisso per la formazione del superlativo (es. important-issimo), sia per le modifiche
che apporta al senso del lemma sia perché talvolta non esiste un equivalente in altre lingue (es.
importantissimo = very important). Pertanto gli aggettivi sono ricondotti al lemma di base in IWN
D-70
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(es. importante) e ricevono la specificazione del tratto alter al quale viene assegnato il valore “sup”.
Il valore “compar” è invece assegnato come valore di alter nel caso degli aggettivi comparativi.
Riassumendo, il seguente tratto è richiesto per la descrizione degli alterati non lessicalizzati e per
gli aggettivi superlativi:
•
alter=dim, accr, disp, vezz, sup, compar, alter
4.3.2.1.2
Nomi Propri
I nomi propri, quando non attestati in IWN, non ricevono alcuna specificazione relativa al
numero di senso. Ad essi è invece assegnato un tratto che li caratterizza rispetto al tipo di referente
e che fa riferimento alle corrispondenti classi semantiche di IWN. I possibili valori dell’attributo np
(nome proprio) sono:
-
pers: per nomi propri di persone (es. Giulio_Andreotti);
-
grup: per nomi propri di gruppo di persone (es. Telecom, Montedison);
-
luogo: per nomi propri di località (es. Milano);
-
man: per nomi propri di prodotti e manufatti in genere (es. Macintosh, Windows);
-
np: per tutti gli altri casi.
Tale tratto consente un facile recupero dal corpus annotato dei nomi propri per classi di referenti
e ne rende uniforme il trattamento a livello di annotazione semantico-lessicale indipendentemente
dalla loro presenza o meno nella risorsa lessicale di riferimento.
Riassumendo, i seguenti tratti sono necessari per l’annotazione dei nomi propri:
•
lem=LEMMA
•
ns= Sn, S1&S2, S1|S2, no_senso, no_lemma, no
•
np= pers, grup, luogo, man, np
Da notare che va prevista la possibilità di un uso disgiunto/congiunto dei valori dell’attributo np
per i casi in cui non sia possibile operare una scelta (es. quando non è possibile distinguere tra
Germania come “luogo” e come “grup”).
4.3.2.1.3
Parole Straniere
Le parole straniere vanno distinte in tre tipi:
1. quelle che sono entrate nell’uso corrente della lingua italiana;
2. quelle che non sono entrate nell’uso corrente ma hanno una applicazione e diffusione in
ambito tecnico-specialistico;
3. quelle che non sono usate correntemente nella lingua italiana.
D-71
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Ci si aspetta che le parole appartenenti alla prima classe siano attestate in IWN e nel testo si
possa fare riferimento al numero di senso loro assegnato in IWN; in caso contrario, si segnalerà la
mancanza del lemma ai lessicografi di IWN.
La seconda classe farà riferimento a partizioni specialistiche del lessico (ovvero relative a un
dato dominio semantico); come nel caso precedente, se già attestate nel lessico l’annotazione farà
riferimento al numero di senso della partizione specialistica di IWN; in caso contrario, verrà
segnalata la loro assenza ai lessicografi della partizione specialistica per valutarne l’eventuale
integrazione nel lessico. Per maggiori dettagli sull’annotazione della terminologia specialistica si
rinvia alla sezione sulla terminologia (4.3.2.5).
Il terzo tipo di parola straniera non è attestata nella risorsa lessicale di riferimento e rimane
genericamente etichettata come parola straniera (già nel formato di input del testo), non ricevendo
dunque l’assegnazione di nessun numero di senso.
Va ricordato che tra i tratti morfo-sintattici che caratterizzano il formato di input all’annotazione
semantico-lessicale esiste già l’informazione relativa a ‘parola straniera’. Tuttavia sarà valutata
l’opportunità di ripetere tale informazione a livello semantico-lessicale in fase di verifica dello
schema di annotazione all’inizio della linea 1.2..
Esempi dal corpus di SI-TAL delle tre classi di parole straniere identificate sopra sono riportati
di seguito:
1. parole di uso corrente: leader, import, export
2. parole di tipo tecnico (a diffusione limitata/settoriale): rating, tax, trend
3. parole non entrate nell’uso della lingua in generale:
•
•
•
imboccare nell’ 85 la via della «politique d’abord» ma quella di un’ integrazione..
degli ortolani) occorre fare dell’ «économie d’abord», abolire i controlli doganali..,
una maggioranza capace di decidere cosa vada modificato d’abord nella «storia
materiale»…
4.3.2.2 Criteri di annotazione delle <usc
La categoria delle unità semanticamente complesse include espressioni polilessicali, ovvero
espressioni idiomatiche più o meno composizionali, i composti (di cui parte sono di ambito tecnico
specialistico) e le espressioni a verbo supporto.
In quanto segue, dopo aver elencato le motivazioni che giustificano la loro annotazione,
forniremo criteri per la loro identificazione nel testo e conseguente annotazione.
4.3.2.2.1
Perché l’annotazione delle <usc
Elenchiamo qui di seguito alcune delle ragioni che giustificano l’annotazione delle <usc.
La loro parziale o totale non composizionalità semantica fa sì che:
D-72
Linea 1.1 - Treebank sintattico-semantica dell'italiano
1. il significato dell’intera sequenza può non essere ricavabile a partire dal significato dei singoli
componenti lessicali: es. entrare (move) in possesso (stative possession) ≠ entrare in possesso
(change possession);
2. le restrizioni di selezione dell’intera sequenza possono essere molto specifiche: es. tagliare i
ponti / il cordone ombelicale richiede un obliquo introdotto da con di tipo ‘umano / istituzione /
gruppo umano’;
3. i sinonimi (che compariranno nel corrispondente “synset” di IWN) possono essere molto
specifici, diversi da quelli dei singoli componenti: tagliare la corda / scappare / fuggire;
Dal punto di vista dell’utilizzo futuro del corpus annotato, si osserva che:
1. nella prospettiva di uso del corpus nell’ambito di operazioni di recupero di informazione (IR),
l’annotazione delle unità semanticamente complesse può rendere più corrette e significative le
informazioni estratte: es. una ricerca che ha come oggetto il recupero di documenti riguardanti
l’arredamento, deve poter escludere contesti del tipo organizzare una tavola rotonda in quanto
non rilevanti rispetto all’interrogazione;
2. nella prospettiva di uso del corpus nell’ambito della traduzione automatica (MT) può essere
utile l’identificazione di unità semanticamente complesse che hanno in molti casi equivalenti in
altre lingue ma, talvolta, con variazioni sia strutturali sia lessicali (es. toccare ferro = toucher
du bois);
3. nella prospettiva di creazione o estensione di lessici computazionali può essere utile consentire
l’identificazione di queste espressioni e lo studio del grado di flessibilità sintattica che le
caratterizzano (possibilità di inserire modificatori, ecc.).
Infine dal punto di vista pratico, si nota che:
1. talvolta appare più difficile annotare le singole unità lessicali che l’intera sequenza (es ferro da
stiro/ calce viva/ a chiare lettere/ romanzo giallo). L’annotazione delle singole componenti di
una espressione polilessicale richiederebbe una interpretazione del senso dei singoli componenti
e del legame che intercorre tra loro che spesso appare totalmente arbitraria. Si pensi inoltre
all’annotazione delle espressioni a verbo supporto, dove il contributo semantico del verbo
supporto è, in realtà, limitato (“leggero”): es. fare paura.
4.3.2.2.2
Problemi nell’identificazione ed interpretazione delle <usc
L’identificazione e interpretazione delle <usc può risultare difficile a causa dell’assenza di criteri
certi e univoci. I criteri forniti dalla letteratura che mirano a verificare il grado di fissità sintattica e
semantica di queste espressioni non sempre sono applicabili. Anche le espressioni idiomatiche che
non sembrano decisamente soggette a variazioni talvolta sono attestate nel corpus in diverse varianti
(“it has more recently been pointed out that idioms in use are prone to massive variation”, Sinclair,
1996): es. tagliare le ultime ali a un paese.
Il riconoscimento e l’interpretazione delle <usc rimane un punto problematico almeno in alcuni
casi e per molti aspetti soggettivo. Per questa ragione, appare opportuno discutere i casi più
complessi e controversi allo scopo di ridurre il margine di soggettività nelle scelte dell’annotatore e
giungere a decisioni concordate.
D-73
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.3.2.2.3
Identificazione degli elementi costitutivi delle <usc
Da un punto di vista pratico, cioè della loro annotazione a livello semantico-lessicale, le <usc
pongono soprattutto due problemi:
1. quali elementi devono essere considerati parte dell’espressione semanticamente complessa?
In altri termini, dove incomincia e finisce l’espressione? Per esempio, essere la chiave di
volta o chiave di volta o chiave volta o essere chiave volta ecc.
2. come gestire i casi di discontinuità delle <usc?
Esaminiamo in dettaglio i due punti.
1. le <usc sono caratterizzate da una certa “fissità” lessicale, nel senso che i lemmi che le
compongono sono fissi o quantomeno commutabili con pochi altri (si pensi ad esempio alle
espressioni a verbo supporto). Per questa ragione appare opportuno considerare parte
dell’espressione tutti gli elementi invariabili o limitatamente variabili, incluse le parole
grammaticali che tuttavia sono fondamentali per la comprensione dell’espressione. Inoltre
l’esclusione del verbo rende talvolta non significativa l’intera sequenza (es. la chiave di
volta);
2. per espressione discontinua si intende il caso in cui i suoi singoli componenti non sono
adiacenti. Le espressioni che sono soggette a discontinuità o inversione sono essenzialmente
quelle che includono il verbo. Si possono avere i seguenti casi di discontinuità illustrati con
esempi tratti dal corpus di SI-TAL:
1. inserimento di un modificatore dell’intera frase:
tenere il più possibile sulla corda qualcuno
2. inserimento di un pronome e comunque di un elemento sottocategorizzato
dall’espressione stessa:
mettere tutto per iscritto
metterne a punto
3. inserimento di un modificatore di un componente dell’espressione semanticamente
complessa:
fare qualche minuto di esercizi
fare ben pochi passi avanti
avere maggiore peso
mettere i loro puntini sulla i
tenere in maggiore considerazione
4. inversione e discontinuità:
D-74
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Traguardi ambiziosi, insomma, che la Consulta delle professioni non regolamentate,
insediatasi ieri a Villa Lubin, è comunque convinta di riuscire a tagliare
Nei casi 1. e 2. l’elemento inserito (modificatore della frase o pronome) è esterno all’espressione
semanticamente complessa. Es.:
mettere tutto per iscritto
dove le parole evidenziate in grassetto sono da considerarsi gli elementi costituenti la <usc in
corso di definizione: in questo caso, <usc = mettere per iscritto. Il lemma ad esso associato sarà la
forma standard di riferimento selezionata, ad esempio mettere_per_iscritto.
Nel caso 3., eventuali modificatori dei componenti dell’espressione (che dovrebbero essere tanto
più rari quanto più l’espressione è semanticamente non composizionale) sono considerati parte
dell’espressione stessa come esemplificato di seguito:
Eppure i vari gruppi si sono affrettati a mettere i loro “puntini sulle i” del documento…
dove le parole mettere i loro puntini sulle i sono da considerarsi come facenti parte della <usc. In
ogni caso, il lemma attribuito a questa occorrenza non includerà gli eventuali modificatori, ma farà
riferimento alla forma che è stata selezionata come standard (per esempio, nel caso precedente
mettere_i_puntini_sulle_i); in questo modo si creano i presupposti per il recupero di tutte le varianti
di una stessa <usc attestate nel corpus annotato (ad esempio con e senza modificatori).
Nel quarto caso, quello dell’inversione, i costituenti della <usc sono marcati nel testo come
segue:
Traguardi ambiziosi, insomma, che la Consulta delle professioni non regolamentate, insediatasi
ieri a Villa Lubin, è comunque convinta di riuscire a tagliare
Al livello del lemma, invece, l’ordine standard della sequenza è ricostruito; quindi nel caso
precedente il lemma sarà presumibilmente tagliare_traguardo.
Data la difficoltà di identificare correttamente gli elementi costitutivi delle <usc, nella prima fase
della linea 1.2 la casistica illustrata sopra verrà analizzata in dettaglio alla luce dell’evidenza
attestata nel corpus della Treebank e verranno forniti agli annotatori criteri precisi di identificazione
delle <usc.
4.3.2.2.4
Espressioni idiomatiche e composti
Con ‘espressione idiomatica’ intendiamo tutte le espressioni polilessicali (Casadei, 1996:13) che
da un punto di vista sintattico e soprattutto lessicale sono caratterizzate da una certa fissità,
contrariamente alla frase libera in cui ogni posizione è commutabile con qualunque elemento che
abbia le caratteristiche categoriali e semantiche (restrizioni di selezione) richieste.
Il loro significato non è composizionale (es. tagliare la testa al toro) o lo è solo parzialmente (es.
mettere a ferro e fuoco, mettere piede) e comunque si è fissato, cristallizzato nel tempo.
La fissità lessicale (o limitata variabilità) e la parziale o totale non composizionalità semantica
sono una caratteristica anche dei composti.
D-75
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Diamo qui di seguito alcuni esempi tratti dal corpus di SI-TAL che illustrano la tipologia di
espressioni che ci troveremo ad annotare e sono esemplificative dei livelli diversi di
composizionalità semantica:
Espressioni Idiomatiche
essere la chiave di volta
mettere troppa carne al fuoco
mettere a ferro e fuoco
soffiare sul fuoco
gettare benzina sul fuoco
mettere via
andare in gol
lasciare andare
avere le carte in regola
fare da pendant
fare da cuscinetto
fare da contrappeso
avere un bel da fare
darsi da fare
fare a meno di (qualcosa)
fare il gioco di (qualcuno)
tagliare il respiro (mozzare il fiato)
tenere buono (qualcuno)
tenere d’occhio (qualcuno)
mettere piede
mettere in pericolo
andare in onda
andare d’accordo
essere nel giusto
essere al di sopra di ogni sospetto
essere sopra le parti
4.3.2.2.4.1
Composti
agente segreto
agente di frontiera
braccio di ferro
conflitto a fuoco
arma da fuoco
lingua di fuoco
vigile del fuoco
Criteri di identificazione delle espressioni idiomatiche e dei composti
In questa sezione forniamo una batteria di test per l’identificazione delle espressioni idiomatiche
e dei composti. Va tuttavia premesso che non sempre tali test sono affidabili e applicabili poiché la
struttura interna e il grado di non composizionalità semantica delle espressioni semanticamente
complesse è molto variabile.
Va inoltre ricordato che talvolta i criteri che possono guidare il riconoscimento di una <usc
possono essere di natura più generale e non semplicemente dei test di tipo sintattico/semantico
(specialmente per quanto riguarda il corpus specializzato). Per esempio, la frequenza accertata di
una certa sequenza (es. stato membro) o l’esistenza e l’utilizzo contemporaneo di un acronimo e di
una forma sciolta per lo stesso referente (es. consiglio di amministrazione / CDA) possono indurre
all’identificazione di <usc.
I test elencati qui di seguito, che sono stati presi dalla letteratura corrente (Danlos, 1981, 1988,
Ten Hacken 1991, Gross, 1985, 1986, 1988), sono distinti in 1) quelli per sequenze senza verbo e 2)
quelli per sequenze con verbo.
D-76
Linea 1.1 - Treebank sintattico-semantica dell'italiano
SEQUENZE SENZA VERBO
La struttura sintattica interna dei composti può essere molto varia: sostantivo-preposizionesostantivo (S E S), sostantivo-sostantivo (S S), aggettivo-sostantivo (A S), ecc. I test variano a
seconda della struttura interna, come esemplificato in quanto segue.
•
Costruzione Predicativa: la costruzione predicativa è possibile solo con sequenze ordinarie di
sostantivo-aggettivo (S A) ma non con composti che hanno questa struttura. Es.:
tavola rotonda (=conferenza, incontro) > *la tavola è rotonda
•
Nominalizzazione: la nominalizzazione non è possibile con i composti aventi la struttura S A.
Es.:
*la rotondità della tavola
•
Modificazione: la modificazione tramite l’inserimento di avverbi e le costruzioni superlative e
comparative non sono possibili con i composti. Es.:
ferro da stiro > *un ferro nuovo da stiro
tavola rotonda (=conferenza, incontro) > *la tavola più rotonda,
*una tavola perfettamente rotonda
•
Coordinazione: l’aggettivo che fa parte di una parola composta non può essere coordinato con
altri aggettivi anche se ciò è possibile con sequenze ordinarie. Es.:
* la tavola rotonda e larga
•
Omissione: l’aggettivo di un nome composto è obbligatorio (pertanto non può essere né
sostituito né omesso) e talvolta può essere usato da solo. Es.:
*tavola circolare
cronaca rosa/ nera/ *gialla
*ho organizzato una tavola (rotonda)
ho letto un (romanzo) giallo
Criteri più deboli:
•
Flessione: va ricordato che l’esistenza di un composto ci può essere segnalata da irregolarità
morfo-sintattiche (per esempio, a livello della flessione). Infatti, mentre alcuni composti
presentano regolarmente sia la forma singolare sia quella plurale (es. tavole rotonde) altri hanno
solo una forma al plurale (effetti speciali) o al singolare (la mano nera).
•
Restrizioni di co-occorrenza lessicale: alcuni composti sono caratterizzati da una certa
variabilità lessicale che tuttavia rimane sempre limitata. Infatti solo un aggettivo o un ristretto
numero e tipo di aggettivi si combina con un nome per formare un composto (es. alta/bassa
marea).
SEQUENZE CON IL VERBO
D-77
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
Inserzione: non è ammesso l’inserimento di modificatori dei singoli componenti lessicali di una
espressione idiomatica, mentre è normalmente consentito l’inserimento di modificatori
dell’intera sequenza. Es.:
*tagliare la lunga corda
tagliare velocemente la corda
•
•
Estrazione: l’estrazione di un componente lessicale di una espressione idiomatica per mezzo di
particolari strutture sintattiche non è solitamente possibile. Es.:
-
costruzione passiva: *la corda è stata tagliata da Leo
-
“clefting”: *è la corda che è stata tagliata da Leo
-
topicalizzazione: *LA CORDA è stata tagliata da Leo
-
costruzione relativa: *la corda che è stata tagliata da Leo
Pronominalizzazione: la sostituzione di uno o più elementi di una espressione idiomatica con
un pronome non è solitamente consentita. Es.:
ha tagliato la corda dal carcere > *l’ha tagliata dal carcere
•
Modificazione: i componenti lessicali di una espressione idiomatica non possono essere
solitamente flessi o sostituiti. Es.:
*tagliare le corde/la fune
Riassumendo, le espressioni idiomatiche e i composti sono annotate come <usc la cui
descrizione include i seguenti tratti e valori:
•
lem=LEMMA
•
tipousc=idioma, comp
4.3.2.2.5
Espressioni con verbo supporto
Nella Treebank di SI-TAL le espressioni con verbo supporto (da qui in poi VSUP) sono annotate
in termini di <usc. Una <usc di tipo VSUP è caratterizzata dalle seguenti proprietà:
•
l’apporto semantico del verbo cosiddetto supporto al significato dell’espressione è ridotto,
controbilanciato dal ruolo fondamentale giocato dal nome o sequenza che lo segue: es. dare
aiuto (aiutare), fare paragoni (paragonare) fare affermazioni (affermare) ecc.; (Da notare che
una sequenza come ‘mettere piede’ è da considerarsi una espressione idiomatica vera e propria
perchè ‘piede’ non conferisce un significato particolare a ‘mettere’);
D-78
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
il verbo serve soprattutto per convogliare i tratti grammaticali del tipo: tempo, aspetto, modo,
persona ecc.;
•
uno stesso nome si può combinare con più VSUP (un numero comunque ristretto e fisso) che
fungono da varianti aspettuali (es. essere/mettersi in viaggio);
•
i verbi che in alcune costruzioni possono avere la funzione di ‘supporto’ a livello semantico
sono un numero ristretto, essere, avere, fare e pochi altri che spesso sono varianti aspettuali dei
primi (es. dare, prendere, venire, mettere, entrare, ecc.).
Le strutture a VSUP sono notoriamente molto varie. Alcuni (vedi Renzi, 1995) annoverano tra le
espressioni a VSUP anche frasi del tipo Leo è un venditore che indica una condizione permanente
rispetto al verbo (Leo vende). Tuttavia in questa sede appare opportuno restringere la nozione di
espressione a VSUP a quelle sequenze che presentano una certa fissità sintattica e una limitata
variabilità lessicale. Nella Treebank di SI-TAL verranno annotate come strutture a VSUP i seguenti
casi:
1. strutture a VSUP che sono una variante della forma verbale 3 :
essere in viaggio > viaggiare
essere alla ricerca > ricercare
essere in contraddizione > contraddire
fare paura > impaurire
mettere paura > impaurire
dare una lavata > lavare
avere in odio > odiare
2. strutture a VSUP che sono una variante della forma aggettivale:
essere nell’incertezza > incerto
essere di notevole coraggio > coraggioso
essere in agitazione > agitato
essere in dubbio > dubbioso
Questi due tipi di espressioni a VSUP presentano le seguenti caratteristiche:
•
le varianti della forma verbale si presentano come:
VSUP + S
VSUP + E (in, di, da, ecc.) + S
dove il nome (S) è tipicamente astratto (es. odio) e/o deverbale (es. viaggio)
•
le varianti della forma aggettivale si presentano come:
VSUP + E (in, di, ecc.) + S
dove il nome (S) è di tipo astratto e collegato ad un aggettivo (es. coraggio).
3
In IWN, queste espressioni a VSUP saranno incluse nel synset del verbo di cui esse costituiscono una variante.
D-79
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
entrambe le espressioni a VSUP possono avere una loro specifica sottocategorizzazione e
specifiche restrizioni di selezione. Ciò costituisce sia una ulteriore motivazione in favore della
loro annotazione a livello semantico-lessicale che un criterio per annotare almeno i casi più
interessanti da un punto di vista linguistico. Es.:
essere in viaggio per la Mecca/ *viaggiare per la Mecca
essere in contraddizione con i fatti/ *contraddire con i fatti
fare affidamento su qualcuno/ *affidarsi su qualcuno
Dal punto di vista delle applicazioni del corpus annotato, appare utile differenziare queste
espressioni dalle altre per consentirne una eventuale estrazione separata. Va ricordato che al pari
degli altri tipi di espressioni idiomatiche, quelle a VSUP non hanno sempre un esatto equivalente in
altre lingue come appare dagli esempi seguenti presi da Ruimy e Corazzari (1991):
essere di poche parole= etre peu causant
essere nei guai=avoir des ennuis
essere di garanzia=servir de garantie
essere in aumento=augmenter
Diamo qui di seguito alcuni esempi presi dal corpus di SI-TAL:
VSUP
fare
S
fuoco; affermazioni;
paragoni; complimenti;
esempi; il confronto; la
guardia; progressi;
affidamento; concessioni;
prognostici; previsioni;
programmi; verifica;
pulizia; esempi; pipì;
esercizi; cura; guerra
mettere
paura
dare
fuoco
essere
E+S
in scena; in discussione; in
posa
a conoscenza; in possesso
Le espressioni a VSUP sono trattate al pari delle espressioni idiomatiche come un’unica unità di
senso. Per consentire l’eventuale recupero automatico di queste espressioni appare sufficiente
assegnare all’elemento <usc il tratto tipousc al quale viene assegnato il valore “vsup” (tipo di
<usc=con verbo supporto).
Riassumendo, l’annotazione delle espressioni a VSUP si fa con l’elemento <usc e i seguenti tratti
descrittivi:
D-80
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
lem=LEMMA
•
tipousc=vsup
4.3.2.3 Criteri di annotazione delle <ust
L’annotazione dei titoli in generale (di spettacoli, giornali, libri ecc.) è necessaria a livello
semantico-lessicale perchè essi sono espressioni che hanno un comportamento particolare rispetto al
contesto in cui figurano. I titoli si comportano come (micro)testi indipendenti all’interno di un altro
testo. La loro annotazione è auspicabile almeno per le seguenti ragioni:
-
in vista del recupero di informazioni da testi, l’annotazione dei titoli rende più attendibili le
informazioni estratte; ad esempio, in una indagine su fiori e piante, non verrebbe estratto il
contesto pubblicare ‘I fiori del male’;
-
in vista di un eventuale uso del corpus annotato in MT, appare evidente che i titoli devono
essere differenziati sia perchè talvolta essi non sono tradotti con un esatto equivalente sia perchè
talvolta essi sono lasciati invariati, cioè come appaiono nella lingua sorgente.
Va, infine, sottolineato che in un corpus giornalistico, i titoli occorrono molto frequentemente.
I titoli, quando sono composti da più di un lemma, condividono alcune caratteristiche delle <usc
perchè si comportano sintatticamente e semanticamente come una unica unità.
Tuttavia al contrario delle <usc, trattate in precedenza, le <ust sono sempre composizionali
(anche se possono includere a loro volta delle <usc), cioè i singoli componenti mantengono il loro
significato proprio, e sono sempre continue.
L’elemento <ust (unità semantica di tipo titolo) serve per marcare i titoli. Esso può riferirsi ad
una singola parola o a più parole adiacenti. Si esclude per il momento la possibilità di annotare
semanticamente le parole costitutive dell’elemento <ust.
L’attributo tipot consente di distinguere i nomi di spettacoli/film (il valore è “spettacolo”) da
quelli di testi scritti, giornali, libri ecc. (il valore è “semiotico”). Tale distinzione è giustificata dalle
seguenti ragioni:
-
titoli diversi co-occorrono con lemmi semanticamente diversi (es. leggere/pubblicare/scrivere
un tipot=semiotico // guardare, registrare un tipot=spettacolo);
-
da un punto di vista dei tipi/concetti semantici, ci può essere una differenziazione dei due tipi di
referenti del titolo (es. “artefatto semiotico / informazione” // “opera d’arte”);
-
in precedenti esperienze di annotazione del corpus i titoli di testi scritti o spettacoli sono risultati
i più frequenti (si veda Corazzari et al., 1999).
Il valore “indef”, invece, consente all’annotatore che non deve/può avere necessariamente una
conoscenza enciclopedica di lasciare sottospecificato questo attributo.
Riassumendo, l’elemento <ust è descritto dagli attributi:
D-81
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
lem=LEMMA
•
ns=no
•
tipot=semiotico, spettacolo, tipot, indef
4.3.2.4 Gli Usi Figurati
Per usi figurati si intendono gli usi metaforici, metonimici ecc., a livello sia di <us sia di <usc. In
quanto segue diamo criteri per l’individuazione e l’annotazione di usi figurati. Va ricordato che
questa sezione è suscettibile di integrazioni (soprattutto per quanto riguarda i criteri di
individuazione della metafora e della metonimia) nella fase di verifica dello schema di annotazione
all’inizio della linea 1.2..
4.3.2.4.1
La Metafora
La metafora come fatto linguistico è interpretata nella letteratura principalmente in tre modi
diversi. La metafora è:
-
una anomalia: cioè una violazione delle restrizioni di selezione (vedi Casadei 1996, Fass, 1991)
-
una comparazione: “la metafora è il trasferimento a un termine (detto “topic”, ad esempio
Mario) di un nome appartenente a un altro (detto “vehicle”, ad esempio leone) in base a un
elemento di somiglianza tra i due (detto “ground”, cioè il coraggio)” (Casadei 1996; si veda
anche Fass, 1991)
-
una interazione: si pensa che “la metafora proietti sul “topic” non una singola proprietà ma un
insieme di implicazioni convenzionalmente associate al “vehicle” (conoscenze, credenze, luoghi
comuni sul “vehicle”), i cui contenuti sono selezionati anche dallo specifico “topic” “ (Casadei
1996; si veda anche Fass, 1991).
Da un punto di vista operativo, appare fondamentale la distinzione tra metafora lessicalizzata e
non lessicalizzata. Tale distinzione può essere operata prendendo come punto di riferimento sia
IWN che altri dizionari della lingua italiana assunti come risorse lessicali di riferimento.
Le metafore lessicalizzate ricevono il numero di senso presente in IWN e il tratto fig=metaf che
le identifica come metafore (es. la chiave del problema, tavolo delle trattative, volano battute).
Le metafore non lessicalizzate ricevono un numero di senso che rinvia al loro significato letterale
ed un tratto per marcare l’uso metaforico (es. Zepe sotto il fuoco di Mladic).
Da un punto di vista applicativo, le prime non danno luogo a violazione delle restrizioni
selezione perché sono integrate nel lessico e in termini di tipi/concetti semantici sono descritte
modo appropriato (es. non capisco la molla (tipo/concetto semantico=causa e non artefatto)
una tale violenza) mentre le seconde sì. Tuttavia la presenza del tratto fig=metaf consente
sottolineare l’uso particolare del lemma.
D-82
di
in
di
di
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Va da sé che può rivelarsi necessario integrare il lessico computazionale con usi metaforici che
ricorrono frequentemente, ad esempio, nei testi giornalistici anche se non sono forse ancora attestati
nei dizionari correnti (es. verdi per indicare gli ecologisti).
4.3.2.4.2
La Metonimia
La metonimia implica l’uso di una entità per riferirsi ad un’altra ad essa collegata (Fass,1991).
Numerosi tentativi sono stati fatti di individuare e classificare tipi diversi di metonimie. I tipi più
frequenti sembrano essere quelli che indicano:
-
la parte per il tutto (l’insieme);
-
il contenitore per il contenuto;
-
il produttore per il prodotto;
-
l’oggetto usato per chi lo usa;
-
la causa per il risultato;
-
ecc.
La metonimia, al pari della metafora, è caratterizzata da una violazione delle restrizioni di
selezione ma si differenzia da essa per le seguenti ragioni (Fass, 1991) 4 :
1. la metonimia è una relazione di contiguità (l’essere connesso a qualcosa) mentre la metafora è
una relazione di similitudine (l’essere come…);
2. “la metafora è principalmente una maniera di concepire una cosa in termini di un’altra e la sua
funzione principale è la comprensione, mentre la metonimia ha principalmente una funzione
referenziale, cioè, permette di usare una entità al posto di un’altra, pertanto essa ha un ruolo di
comprensione perché si focalizza su certi aspetti di ciò a cui ci si riferisce” (traduzione da Fass,
1991).
Data la complessità di tale nozione appare difficile pensare che l’annotatore si faccia carico di
operare troppo sottili distinzioni che sono, tra l’altro, in parte sensi solitamente integrati nel lessico
computazionale e nei dizionari (es. un bicchiere inteso come il contenuto). Appare pertanto
opportuno limitare il compito dell’annotatore a segnalare i casi di usi metonimici non entrati
nell’uso corrente e pertanto non lessicalizzati e quindi non necessariamente integrati in un
dizionario: es. scende la pace sulle rotaie (esempio dal corpus giornalistico di ELSNET).
Riassumendo, il seguente tratto è richiesto per la descrizione degli usi figurati:
•
fig=metaf, meton, fig
4
La distinzione tra metafora e metonimia è un punto controverso. Per molti l’una equivale all’altra e viceversa
(Fass, 1991).
D-83
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.3.2.5 Terminologia
Per “terminologia” s’intende “il complesso dei termini, delle locuzioni, del frasario proprio di
una scienza, di un’arte o di un particolare settore tecnico o ambito sociale” (Palazzi-Folena,
Dizionario della lingua italiana, 1995). Nel caso specifico del dominio finanziario, proprio della
parte specializzata del corpus di SI-TAL, la terminologia si riconduce in buona parte a:
• termini stranieri
Nell’ambito di corpora a carattere finanziario si riscontra un uso piuttosto esteso di termini
stranieri, principalmente inglesi. Si assume infatti che per molte azioni ed eventi del mondo
economico valga un gergo internazionale poiché l’economia è intesa in senso mondiale e la
lingua inglese rappresenta la lingua comune d’interscambio. Nell’insieme di termini stranieri
presenti nel corpus si distinguono quelli ormai divenuti d’uso comune (es. leader, import,
export, ...), che come tali sono riportati sui dizionari della lingua italiana, e quelli, usati
magari con una certa frequenza, ma più specifici del dominio (es. rating, tax, trend,...) che
non sono stati ancora inseriti nei dizionari.
• espressioni polilessicali
Si tratta di espressioni tipicamente composte da 2-3 parole per indicare oggetti, fatti, eventi del
mondo finanziario (es. consiglio di revisione, quota azionaria, prestito obbligazionario, ...).
• sigle o acronimi
La presenza di sigle e acronimi è piuttosto marcata all’interno del corpus. L’uso di questi
avviene principalmente in sostituzione delle espressioni complesse citate sopra (es. cda in
luogo di consiglio di amministrazione). Le ragioni di tale uso sono da ricercarsi in primo
luogo nella comodità di una forma abbreviata che evita la pesantezza dell’intera espressione
complessa. In secondo luogo, tale uso è dettato dall’adozione di un gergo che si suppone
essere noto (es. opa, pil, bot), almeno a chi opera in quel campo.
Per l’annotazione di sigle e acronimi si deve far riferimento al numero di senso associato
all’espressione polilessicale ad essi corrispondente in IWN. La presenza di svariate forme ad
indicare la stessa espressione complessa, suggerisce di associare ad ogni acronimo
l’informazione relativa al nome per esteso. In questo modo, indipendentemente dal fatto che esso
sia formato a partire dalle sole prime lettere iniziali (es. pil per prodotto interno lordo) o includa
o meno le preposizioni o gli articoli (es. cdr per consiglio di revisione) oppure ancora sia formato
di lettere maiuscole e minuscole (es. BoT per Buoni ordinari del Tesoro) o di sole lettere
minuscole (es. cda per Consiglio di Amministrazione) o di sole lettere maiuscole (es. AME per
Accordo Monetario Europeo) oppure ancora includa o meno il segno di punto (es. spa ma anche
s.p.a o S.p.A.), si può facilmente risalire alla forma base sciolta a cui l’acronimo si riferisce. Ad
esempio, leggendo cdd o c.d.d o c.d.d. (o tutte le svariate forme con punti o lettere
maiuscole/minuscole) si può risalire a consiglio dei delegati.
Il riferimento esplicito all’espressione sciolta aiuta anche nei casi di ambiguità risolvibili solo
attraverso il contesto (es. c.d è usato per indicare sia consigliere delegato sia comitato direttivo).
Nel caso invece delle espressioni semanticamente complesse di tipo terminologico non
esistono criteri di individuazione specifici e pertanto si rimanda alla sezione 4.3.2.2.4.1 relativa
ai “Criteri di identificazione delle espressioni idiomatiche e composti”.
D-84
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4.3.2.6 Casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso
attestato
In fase di assegnazione di un numero di senso ad una data forma del corpus si possono verificare
i seguenti casi problematici:
•
assenza del lemma;
•
assenza del senso rilevante di un lemma già presente in IWN;
•
corrispondenza con più sensi dello stesso lemma.
Per il trattamento di questi casi è necessaria una (frequente) interazione tra annotatore del corpus
e lessicografi di IWN.
4.3.2.6.1
Assenza del lemma
Si possono verificare i seguenti casi:
-
parole correnti non ancora inserite nel database lessicale di riferimento (perché in costruzione);
-
nomi propri (anche acronimi e sigle di ogni tipo, es. Andreotti, UNICEF);
-
parole composte (es. calce viva);
-
espressioni idiomatiche (es. tagliare la testa al toro);
-
parole straniere (es. capital_gain);
-
neologismi (es. gli andreottiani; i piduisti)
-
terminologia (es. bilancia dei pagamenti)
-
ecc.
Il caso di assenza del lemma nella risorsa lessicale di riferimento è codificato al livello del tratto
ns, il cui valore è no_lemma, come illustrato di seguito:
•
ns=no_lemma
Questa assegnazione è da considerarsi come provvisoria in quanto una volta che la risorsa
lessicale di riferimento sarà stata integrata con l’informazione mancante sarà sostituita con
l’assegnazione definitiva.
4.3.2.6.2
Assenza del senso rilevante di un lemma già presente in IWN
Il caso di assenza del senso rilevante di un lemma già presente nella risorsa lessicale di
riferimento viene segnalato ai lessicografi in modo che possano effettuare l’integrazione della
risorsa: il gruppo dei lessicografi vaglierà l’opportunità di tale integrazione.
Le seguenti considerazioni generali forniranno all’annotatore una guida nella selezione dei casi
da segnalare come “assenza di senso rilevante”:
D-85
Linea 1.1 - Treebank sintattico-semantica dell'italiano
1) non sembra auspicabile la creazione di eccessiva granularità in un lessico semantico con varie
finalità applicative in NLP (si veda Fellbaum et al. 1998; Calzolari et al. (in corso di stampa);
Voorhees 1998);
2) l’identificazione di un nuovo senso e l’inserimento dello stesso nel database lessicale di
riferimento sono fortemente condizionati anche dalle possibilità offerte dal database stesso di
identificarlo e descriverlo in modo univoco rispetto agli altri sensi;
3) talvolta i contesti dell’occorrenza determinano più o meno importanti variazioni di significato
che tuttavia non possono essere considerati sempre e in ogni caso veri e propri nuovi sensi
(ciascun contesto infatti enfatizza determinati tratti semantici di un senso e ne oscura altri senza
tuttavia determinare necessariamente l’esistenza di un nuovo significato).
A parte queste considerazioni generali, non sembra esistano criteri univoci che possono essere
sempre applicati a tutti i lemmi indipendentemente dalla loro POS e dalle loro caratteristiche
sintattico-semantiche.
Il caso di assenza del senso rilevante di un lemma già presente nella risorsa lessicale di
riferimento è codificato al livello del tratto ns, il cui valore è no_senso. Questa assegnazione è da
considerarsi come provvisoria in quanto una volta che la risorsa lessicale di riferimento sarà stata
integrata con l’informazione mancante sarà sostituita con l’assegnazione definitiva.
4.3.2.6.3
Corrispondenza con più sensi dello stesso lemma
Nel caso l’occorrenza in corso di annotazione trovi corrispondenza con più sensi dello stesso
lemma, si procede come segue:
1. quando c’è una corrispondenza simultanea con più sensi dello stesso lemma, ad esempio S1 e
S2, le due alternative sono fornite come segue: S1 & S2;
Per esempio, mantenere che significa 1. tenere, far durare in modo che non venga meno (i contatti)
e 2. tenere saldo, difendere (un primato), figura nel corpus nei seguenti contesti:.
-
le Nazioni Unite dispongono di forze armate proprie per mantenere la pace
Potranno essi ad esempio mantenere la loro condizione di neutralità?
Mentre taluni donatori sono disposti a mantenere l’attuale livello dei loro stanziamenti di aiuto
Un altro esempio è conoscere che può significare sia 1. sapere, avere esperienza che 2. avere
notizia, cognizione di qualcosa. Negli esempi del corpus coesistenza dei due significati permane:
-
La Commissione conosce i gravi problemi che la siccità pone all’agricoltura portoghese
La Commissione conosce perfettamente l’insoddisfacente situazione fiscale in cui si trovano le
persone soggette all’imposta sul reddito
In entrambi i casi riportati sopra, l’annotatore segnalerà la pertinenza di entrambi i sensi ai contesti
annotati fornendo le due alternative congiunte.
2. in casi di ambiguità del contesto, ovvero quando non vi siano elementi per poter discriminare ad
esempio tra S1 ed S2 si annota come segue: S1 | S2. Va detto che questo caso è previsto
D-86
Linea 1.1 - Treebank sintattico-semantica dell'italiano
essenzialmente per completezza delle specifiche di annotazione dal momento che
nell’annotazione di un testo continuo ci si aspetta che i contesti realmente ambigui siano pochi.
Diamo qui di seguito un esempio. Mantenere che può significare 1.tenere, far durare in modo che
non venga meno (i contatti) e 2. finanziare, figura nella frase:
-
Intende il Consiglio dei ministri della CEE mantenere ed eventualmente sviluppare un’attività
di produzione europea in questo settore?
In assenza di un contesto più ampio, non è possibile selezionare tra i due sensi indicati sopra quello
appropriato. In questo caso l’annotazione corretta dovrebbe segnalare l’ambiguità del contesto
assegnando all’attributo ns una disgiunzione di sensi possibili (1 e 2).
I casi di corrispondenza con più sensi dello stesso lemma menzionati sopra sono codificati al
livello del tratto ns il cui valore sono più sensi in relazione di congiunzione o disgiunzione:
•
ns=S1&S2; S1|S2
5 Metodologia di annotazione
5.1
Metodologia di annotazione per il livello sintattico (a costituenti e funzionale)
L’annotazione per i livelli di annotazione sintattica, a costituenti e funzionale, procederà testo
per testo, e - all’interno di questo - frase per frase, dove la frase è definita come unità testuale
compresa tra due segni di interpunzione “forte”.
L’input sarà costituito dal testo annotato morfo-sintatticamente, con:
•
indicazioni relative alla struttura del testo (titolo, didiscalia, sottotitolo, etc.);
•
espressioni polilessicali già marcate; a questo livello, saranno marcate solo multi-word
espressions non soggette a variazioni, valide per tutti i livelli di annotazione previsti per la
Treebank di SI-TAL.
Nel corso della linea 1.1 è stata anche considerata attentamente la possibilità di una preannotazione automatica del testo, da effettuarsi con gli analizzatori sintattici messi a disposizione in
SiSSA all’interno del progetto. Questa possibilità è stata esclusa a priori in considerazione di diversi
fattori, riguardanti sia il software di annotazione sia lo schema di annotazione.
Innanzitutto, sono state valutate le difficoltà che analisi multiple, sia espresse in termini di
“packed shared forest” (prodotta utilizzando la tecnica di “local ambiguity packing”) sia in termini
di semplice lista di analisi alternative, avrebbero introdotto al livello del software di annotazione.
Se infatti la frase in corso di annotazione si presenta come ambigua, circostanza abbastanza
frequente, il tool di annotazione avrebbe dovuto memorizzare le analisi ambigue sulle quali
l’annotatore avrebbe dovuto operare. I problemi derivanti dalla memorizzazione di analisi ambigue
sono ben noti nel campo dei database sintattici (si rinvia a Van Halteren 1997 per una rassegna dei
problemi e delle soluzioni proposte nella letteratura); questo problema appare nettamente
ridimensionato nel caso in cui l’ambiguità da gestire è circoscritta a quella reale e non includa anche
D-87
Linea 1.1 - Treebank sintattico-semantica dell'italiano
ambiguità spurie che sono catturate da un analizzatore sintattico sulla base di una conoscenza
limitata.
Inoltre, nel caso di analisi multiple, si sarebbero dovute stabilire strategie per selezionare la
base di pre-annotazione: nel caso di analisi alternative si sarebbero dovuti fornire criteri per
l’identificazione dell’analisi più probabile; nel caso di rappresentazioni compatte (espresse in
termini di “packed shared forest”) si sarebbe dovuta creare un’interfaccia per l’annotatore umano
per la ricostruzione dell’analisi appropriata al contesto. Tutti questi sforzi andavano al di là delle
finalità specifiche del tema Treebank e per questo motivo si è deciso di procedere ad
un’annotazione completamente manuale.
Altri fattori che hanno contribuito a questa decisione riguardano gli schemi di annotazione
adottati per la Treebank. Date le finalità di uso di una Treebank, lo schema di annotazione deve
essere compatibile con un ampio spettro di schemi di annotazione effettivamente usati nell’ambito
di sistemi di elaborazione del linguaggio. D’altro canto, questo requisito di compatibilità non è
necessariamente soddisfatto dall’output di un analizzatore sintattico, che è guidato da motivazioni
di varia natura che vanno dall’architettura nella quale si inserisce alle finalità per le quali è stato
sviluppato ecc. Quindi anche nel caso si fosse deciso di partire da un testo preanalizzato, ciò non
avrebbe escluso la necessità di revisioni manuali anche nel caso di analisi corrette per rendere
l’output dell’analizzatore conforme allo schema di annotazione adottato.
5.1.1 Modalità dell’annotazione a costituenti
L’annotazione sintattica a costituenti viene realizzata rispetto al testo annotato morfosintatticamente, all’interno del quale l’annotatore dovrà compiere delle operazioni di
parentesizzazione e di assegnazione di etichette di costituenza sintattica. Questa operazione potrà, e
in alcuni casi dovrà, essere compiuta in più passi. L’annotatore manuale del livello sintattico in
costituenti avrà a propria disposizione la versione del testo in forma tipografica e in forma annotata
morfo-sintatticamente. La prima gli servirà per avere una visione d’insieme del contesto in cui sta
operando e la seconda per eseguire passo per passo la parentesizzazione in costituenti delle parole
(tokens) annotate morfo-sintatticamente.
5.1.1.1 Parentesizzazione di base
L’annotazione sintattica in costituenti procederà raggruppando le parole taggate e assegnando a
ciascun gruppo un’etichetta di costituenza sintattica. Questa operazione si potrà compiere in fasi
successive, partendo prima dai costituenti di base e risalendo dal basso verso l’alto (in maniera
bottom-up) a quelli gerarchicamente più alti all’interno dei quali inserire o raggruppare quelli di
base.
Se prendiamo come esempio la frase transitiva attiva Giovanni ha letto molti libri di Maria, che
avrà la seguente rappresentazione morfo-sintattica:
1.
2.
3.
4.
5.
6.
7.
8.
Giovanni GIOVANNI#SP@MS#
ha AVERE#V@S3IP#
letto LEGGERE#V@MSPR#
molti MOLTO#A@MP#
libri LIBRO#S@MP#
di DI#E@#
Maria MARIA#SP@FS#
. .#@@#
D-88
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Possiamo simulare le operazioni di parentesizzazione nei seguenti passi:
PASSO 1
i. costruisci il primo SN
sn-[SP-Giovanni]
ii. costruisci IBAR
ibar-[V-ha, V-letto]
iii. costruisci il secondo SN
sn-[A-molti, S-libri]
iv. costruisci il SPD
spd-[E-di]
v. costruisci il quarto SN
sn-[SP-Maria]
A questo punto, dato che i costituenti costruiti coprono tutte le parole della frase, è possibile
chiudere l’analisi consumando il segno di punteggiatura che la demarca.
5.1.1.2 Parentesizzazione dei costituenti dominanti
A questo punto può quindi partire il secondo livello di parentesizzazione. L’annotatore riceve la
sequenza di costituenti di base che ha creato e può compiere due tipi di operazioni:
A. assegnare nuove etichette a costituenti che sono complementi di una testa lessicale;
B. includere un costituente di base in un costituente che lo domina;
C. includere più costituenti dominanti all’interno di un costituente padre.
Per una operazione di tipo A. abbiamo ad esempio l’assegnazione di un costituente come
COMPT che serve a indicare il tipo di complementazione prevista per il verbo leggere, che è un
verbo transitivo al participio passato. In questo caso l’annotatore dovrà selezionare un costituente ed
assegnare una delle possibili etichette di livello gerarchicamente più alto. Il costituente SN illustrato
al passo iii. sarà dunque incassato in un costituente COMPT come illustrato sotto:
compt-[sn-[A-molti, n-libri]]
Per operazioni di tipo B. abbiamo il caso del SPD che necessita di un SN per poter essere
completato. In questo caso l’annotatore dovrà selezionare due costituenti e stabilire nell’ordine
quale dei due domina l’altro. Questa operazione è ovviamente di tipo ricorsivo, per cui dopo aver
proceduto bottom-up ad individuare le dipendenze più basse si può passare ad individuare quelle
più alte. Tornando ai costituenti costruiti ai passi iii, iv e v illustrati sopra si ottiene il risultato che
segue:
spd-[E-di, sn-[SP-Maria]]
compt-[sn-[A-molti, S-libri, spd-[E-di, sn-[SP-Maria]]]]
La situazione a questo punto è la seguente:
D-89
Linea 1.1 - Treebank sintattico-semantica dell'italiano
sn-[SP-Giovanni]
ibar-[V-ha, V-letto]
compt-[sn-[A-molti, S-libri, spd-[E-di, sn-[SP-Maria]]]]
e l’annotatore è in grado a questo punto di compiere l’ultimo passo, quello che prevede l’inclusione
di costituenti dominanti all’interno di un nuovo costituente “funzionale” (cfr sezioni 4.1.3.3.1 e
4.1.3.3.2), cioè privo di testa e non governato da una testa lessicale come nel caso di COMPT.
Questo è il caso tipico del costituente F che raggruppa nel nostro esempio tutti i costituenti
precedenti all’interno di un unico livello di parentesizzazione:
f-[sn-[SP-Giovanni],
ibar-[V-ha, V-letto],
compt-[sn-[A-molti, S-libri, spd-[E-di, sn-[SP-Maria]]]]]
5.1.2 Modalità dell’annotazione funzionale
Per il livello di annotazione funzionale, l’annotazione dovrebbe procedere come segue:
1. selezione delle unità rilevanti che definiscono una relazione funzionale, di dipendenza o di altro
tipo, secondo la tipologia che segue:
•
relazione di dipendenza: selezionare prima la testa poi il dipendente;
•
relazione di congiunzione/disgiunzione: selezionare gli elementi congiunti/disgiunti secondo
l’ordine di realizzazione a livello superficiale;
•
relazione di legame: selezionare prima l’elemento legato (tipicamente un pronome) poi
l’elemento legante (tipicamente l’antecedente o l’elemento dislocato);
2. specificazione della relazione sussistente tra le due unità selezionate;
3. definizione della tipologia dei tratti che descrivono i singoli elementi della relazione e dei valori
loro associati. I dati di partenza di questa fase dell’annotazione sono costituiti congiuntamente
da a) il tipo di relazione e b) la parte del discorso e le proprietà morfo-sintattiche dei singoli
elementi, già contenuti nell’input per entrambe le unità della relazione. La compilazione dei
tratti e dei relativi valori associati alla testa e al dipendente della relazione dovrebbe poter essere
guidata da un menu a tendina che, sulla base di a) e b), potrebbe guidare l’annotatore nella
selezione dei tratti e dei relativi valori. Nella fase di verifica dello schema di annotazione
funzionale (primi mesi della linea 1.2) verrà anche valutata la possibilità di associare un valore
di default ad alcuni dei tratti associati agli elementi della relazione che l’annotatore dovrebbe
poter eventualmente ridefinire.
A conclusione dell’annotazione di ogni frase, dovrebbe essere possibile una verifica automatica
della copertura dell’annotazione effettuata. Elenchiamo di seguito possibili strategie per la verifica
della copertura dell’annotazione effettuata rispetto all’input da annotare:
•
a parte elementi che sappiamo che a priori non entrano in relazioni di dipendenza (cioè elementi
grammaticali quali i determinativi, gli ausiliari ed altri verbi in costruzioni perifrastiche quali i
modali, i complementatori, le preposizioni, etc. così come la punteggiatura), tutte le unità
testuali dovrebbero entrare in almeno una relazione di dipendenza, o come testa o come
dipendente;
D-90
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
a questa strategia di base, si possono aggiungere euristiche di tipo linguistico quali:
•
la presenza di certi tipi di relazioni e tratti nell’annotazione implicano la specificazione di
altre relazioni di dipendenza; ad esempio, nel caso di completive infinitivali con funzione di
complemento in costruzioni a controllo e a sollevamento così come di infinitive, participiali
e gerundive con funzione di modificatore, il soggetto “implicito” va specificato come
illustrato dagli esempi che seguono:
sogg (partire, Giovanni) Giovanni promise a Maria di partire
sogg (partire, Maria) Giovanni ordinò a Maria di partire
sogg (partire, Maria) Maria fu costretta a partire
sogg (arrivare, Giovanni) Giovanni sembra arrivare domani
sogg (finire, Giovanni) Finito il lavoro, Giovanni partì
sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro
quindi l’assenza della specificazione del soggetto in relazione alla testa verbale di
complementi frasali di modo non finito dovrebbe essere segnalata all’annotatore, anche se vi
saranno casi in cui questa segnalazione non darà luogo a nessuna variazione
nell’annotazione (i casi del cosiddetto “controllo arbitrario”);
•
l’annotazione di una frase con testa verbale di modo finito deve sempre contenere la
specificazione del soggetto; è vero che ci sono eccezioni (ad esempio, nel caso di
construzioni impersonali), ma sarebbe utile segnalare l’assenza della specificazione del
soggetto all’annotatore in modo che possa verificare se si tratti o meno di un errore di
annotazione.
Da notarsi che nel caso dell’annotazione funzionale non tutti gli elementi della relazione
corrispondono ad una unità del testo di input: questi casi particolari sono costituiti da ellissi di vario
tipo, ad esempio:
•
ellissi del soggetto:
ho mangiato due mele
sogg(mangiare, .<pers=1,num=sing>)
•
ellissi della testa verbale:
Carlo legge il libro e Maria il giornale
sogg(LEGGERE, Maria)
Le modalità di annotazione di questi elementi che non trovano una corrispondenza al livello
dell’input verranno dettagliate in seguito, nel corso della linea 1.2.
5.2
Metodologia di annotazione per il livello semantico-lessicale
Anche nel caso dell’annotazione semantico-lessicale si è valutata attentamente la possibilità di
una pre-annotazione automatica, che è stata esclusa in quanto la risorsa lessicale di riferimento,
IWN, è ancora in corso di sviluppo. In particolare, sono state prese in considerazione due possibili
strategie:
D-91
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
assegnare automaticamente il senso a tutte le parole che nella risorsa di riferimento sono
registrate come monosemiche: ma non è detto che nella fase di revisione della risorsa le
parole monosemiche rimangano tali e dunque non è detto che quanto assegnato
automaticamente non richieda ulteriori revisioni;
•
usare sistemi per la disambiguazione di senso disponibili tra i partners del progetto (ad
esempio, SENSE, Federici et al. 1999): anche in questo caso il fatto che la risorsa lessicale di
riferimento sia in costruzione ostacola la costruzione di un training corpus adeguato per il
compito.
Da ciò consegue che anche per questo livello l’annotazione sarà completamente manuale.
Diversamente dall’annotazione per i livelli sintattici, che procederà secondo la sequenza del
testo, l’annotazione semantico-lessicale, che nell’ambito del progetto è circoscritta a nomi, verbi e
aggettivi, procederà lemma per lemma.
Tra i vantaggi dell’annotazione per lemma si annovera:
•
la coerenza nell’annotazione e nel trattamento dei singoli lemmi e delle espressioni polilessicali;
•
a dispetto del fatto che può sembrare una procedura più lunga perché costringe a leggere più
volte uno stesso contesto, questa procedura comporta una riduzione globale dei tempi di
annotazione in quanto:
•
si consulta IWN una volta sola per ogni lemma;
•
una volta compresa una certa distinzione di senso la si applica rapidamente ed in modo
coerente;
•
è più facile per l’annotatore ricordarsi di come ha trattato un certo lemma e decidere
eventuali correzioni sistematiche a posteriori;
•
favorisce un trattamento uniforme e semplificato di costruzioni con verbi supporto, alterati,
metafore lessicalizzate, ecc.;
•
semplifica l’interazione e la discussione con i lessicografi di IWN (che può procedere caso
per caso senza ritornare più volte sullo stesso lemma).
L’annotazione per lemma dovrebbe procedere come segue:
•
recupero di tutte le occorrenze nel testo di un lemma dato;
•
per ogni occorrenza da annotare, prendere visione del contesto in cui occorre, innanzitutto la
frase; se necessario, in seconda istanza il paragrafo che contiene la frase oppure l’intero articolo.
L’annotazione della singola occorrenza di un lemma consiste in:
•
selezione nel testo dell’occorrenza da annotare, che può essere costituita da:
•
parola singola, oppure
D-92
Linea 1.1 - Treebank sintattico-semantica dell'italiano
•
•
più parole del testo, non necessariamente adiacenti; questo è il caso delle espressioni
polilessicali, che includono ad esempio, espressioni idiomatiche, ecc.;
per ogni unità semantica da annotare, sulla base dei tratti relativi alle singole parole già
contenuti nell’input (in particolare, lemma, parte del discorso e proprietà morfo-sintattiche), si
procederà a:
•
l’assegnazione del senso appropriato al contesto, selezionato tra quelli presenti nel database
di IWN;
•
in casi di a) ambiguità, oppure b) più sensi che risultano appropriati per lo stesso contesto,
dovrebbe essere possibile ricorrere a disgiunzione/congiunzione di sensi (S1 & S2 per
trattare il caso b; S1|S2 per trattare il caso a);
•
assegnazione di tratti aggiuntivi (espressi in termini di coppie attributo-valore)
all’annotazione per senso: questi tratti si suddividono in i) tratti addizionali di
classificazione semantica, e ii) marche ad uso dell’annotatore;
•
infine, dovrebbe anche essere possibile inserire un breve commento ad uso dell’annotatore
(ove necessario).
5.2.1 Integrazioni richieste della risorsa lessicale di riferimento: casistica
In questa sezione, vengono fornite indicazioni per la formulazione di proposte di integrazione
alla risorsa lessicale di riferimento, ovvero IWN, sulla base dell’evidenza del corpus. Le proposte
verranno trasmesse al gruppo dei lessicografi che le valuteranno e procederanno eventualmente
all’inserimento delle nuove unità di senso. Una volta che la risorsa lessicale di riferimento sarà stata
eventualmente aggiornata, l’annotatore potrà ritornare sulle annotazioni lasciate in sospeso a causa
di lacune della risorsa o al livello di lemma o di senso e sostituire i valori no_senso e no_lemma
con il numero di senso appropriato o con no nel caso in cui il lemma mancante (per esempio un
nome proprio) non sia stato aggiunto alla risorsa lessicale di riferimento.
5.2.1.1 Criteri per la definizione di un nuovo senso
I casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso attestato sono stati
illustrati nella sezione 4.3.2.6 di questo Capitolo. In questa sezione ci concentreremo sui criteri da
adottare per l’identificazione di nuovi sensi, che guideranno sia la proposta di articolazione in sensi
di un lemma assente, sia la proposta di un nuovo senso relativo ad un lemma già presente nella
risorsa di riferimento.
Nonostante sia ampiamente riconosciuto che non esistono criteri univoci e sicuri per
l’identificazione di nuovi sensi applicabili indifferentemente a tutte le parti del discorso, è possibile
identificare una lista di “indicatori” formali, sintattici, semantici e multilingui che, congiuntamente
o meno, possono suggerire l’esistenza di un nuovo senso. Va detto che la componente soggettiva
nell’interpretazione e individuazione del nuovo senso rimane tuttavia cruciale. Anche per questo è
auspicabile una interazione con i lessicografi affinché le decisioni, specialmente quelle relative ai
casi più complessi o controversi, siano prese con criteri il più possibile omogenei.
La batteria di criteri che segue combina criteri sintattici, semantici e di natura multilingue
(quest’ultimo particolarmente rilevante quando si prenda in considerazione l’uso del corpus
D-93
Linea 1.1 - Treebank sintattico-semantica dell'italiano
annotato semanticamente per applicazioni quali la traduzione automatica). Essi sono in parte
derivati dalla letteratura corrente (citata in relazione ad ogni singolo criterio) e sono in parte derivati
dai criteri di identificazione di senso nell’ambito della costruzioni di lessici computazionali
finalizzati al NLP e, in SI-TAL, dal modo in cui i lemmi sono caratterizzati e differenziati in IWN.
Criterio Formale Sintattico:
1. un senso può essere caratterizzato da una specifica costruzione sintattica diversa da quella degli
altri sensi di uno stesso lemma. Per esempio, se consideriamo la frase comprendo che il
problema è politico, la costruzione sintattica “V + completiva introdotta da che” seleziona in
modo univoco il senso di comprendere equivalente a capire e non a includere. Va detto che
questo criterio non basta da solo a identificare un nuovo senso: si confrontino ad esempio le due
costruzioni di pensare: penso di partire / penso che partirò. Tuttavia, quando combinato con
altri criteri, può fornire evidenza utile all’identificazione di distinzioni di senso (Moon, 1987;
Hanks, 1996; Monachini et al., 1994; Calzolari et al. 1996; Atkins et al. 1998);
Criteri Semantici:
2. nel caso di un lemma con una struttura argomentale, può accadere che uno specifico senso
richieda argomenti con caratteristiche semantiche diverse da quelle compatibili con gli altri
sensi del lemma. Per esempio, il verbo arrestare nel senso di sottoporre ad arresto e non
fermare richiede un oggetto diretto che sia di tipo umano o gruppo (umano). Da ricordare che
questo criterio è affidabile ma si applica solo a lemmi con struttura ad argomenti (Moon, 1987;
Hanks, 1996);
3. un senso del lemma è descrivibile semanticamente (attraverso ‘tipi semantici’ o ‘base concepts’)
in modo diverso dagli altri sensi (per esempio, acquisto può essere un “oggetto concreto” o una
“attività”);
4. un senso può avere uno o più sinonimi (o contrari) che sono tutti o in parte diversi da quelli
degli altri sensi (si vedano i “synsets” forniti per ogni senso del database lessicale di IWN): per
esempio, comprendere/capire e comprendere/includere. Questo costituisce un altro criterio utile
ed affidabile, la cui applicabilità però è ristretta dal fatto che non tutti i lemmi hanno dei
sinonimi o dei contrari (Cruse, 1986; Moon, 1987);
5. un senso del lemma è usato in un campo semantico/dominio terminologico particolare e ben
delimitato (es. medicina, legge, informatica ecc.) comunque diverso da quello degli altri sensi
Per esempio, il verbo perseguire acquista un significato specifico in ambito giuridico/legale (es.
perseguire un reato, il colpevole ecc.) che non è cercare di raggiungere come in perseguire un
obiettivo;
6. due sensi diversi dello stesso lemma sono antagonisti tra loro, cioè non possono essere
selezionati entrambi contemporaneamente dallo stesso contesto (Cruse, 1986) (per esempio,
?Leo arresta sia il colpevole che il corso degli eventi).
7. un senso può essere selezionato univocamente da un particolare modificatore che non cooccorre con gli altri sensi (Monachini et al., 1994; Calzolari et al. 1996; Levin, 1991). Per
esempio il modificatore bene/ benissimo seleziona il senso di comprendere corrispondente a
capire e non a includere (es. comprendere benissimo il problema/*diversi nomi di candidati).;
Criterio Multilingue:
D-94
Linea 1.1 - Treebank sintattico-semantica dell'italiano
8. due sensi diversi sono traducibili in modo diverso. Per esempio, grande in senso morale ha una
traduzione diversa da grande in senso fisico (es. un grande tavolo = big table; un grande uomo
= a great man). Tuttavia questo criterio non è del tutto affidabile perchè i) dipende dalle lingue
prese in considerazione, ii) due traduzioni diverse non identificano necessariamente due sensi
diversi (es. nella lingua bulgara ci sono due termini diversi per orso femmina e orso maschio),
iii) talvolta l’ambiguità di senso di una lingua è mantenuta anche nell’altra (es.
‘interesse’/’interest’). (Gale et al., 1992).
Riportiamo di seguito alcuni esempi problematici ed illustriamo come i criteri enunciati sopra
possono aiutare l’annotatore nella formulazione di proposte per quanto riguarda il senso della parola
in corso di annotazione nel contesto specifico. Per la discussione di questi esempi sono state prese
come risorse lessicali di riferimento: IWN, Garzanti (1994) e Zingarelli (1997).
Esempio 1:
•
Cossiga apre a La Malfa, sferza i partiti e ripete: il vecchio sistema è finito
Il significato di aprire in questo contesto non figura né in IWN, né nel Garzanti, né nello
Zingarelli. Si tratta di un significato molto legato al linguaggio giornalistico e della politica. Questo
senso ha una costruzione sintattica specifica, qualcuno apre a qualcuno che è diversa dagli altri usi
del verbo perché l’oggetto indiretto è obbligatorio (mentre si può dire Cossiga ha aperto (la porta))
e non esiste alcun oggetto diretto sottinteso (mentre si dice Cossiga apre (la porta) alla cameriera))
(Criterio_1). Sia il soggetto che l’oggetto indiretto devono essere necessariamente di tipo ‘umano /
istituzione / gruppo umano’ (Criterio_2). Le seguenti costruzioni appaiono inaccettabili: *la
cameriera apre a chi bussa alla porta, così Cossiga a La Malfa ; *Cossiga apre a La Malfa e alla
cameriera (Criterio_6). Infine la traduzione di aprire in questo senso non è to open (Criterio_8) .
Esempio 2:
Si considerino i seguenti contesti di perseguire:
•
Si libereranno così molti uomini e molte forze oggi impegnate su questo reato, che preferirei
vedere impegnate, ad esempio, nel perseguire il reato di evasione fiscale
•
ho fatto l’esperienza su di me: quando il giudice Violante perseguì questo valoroso combattente
antifascista tra i più decorati …
‰
mi chiedo se quel modello di giovane mamma persegua il bene di suo figlio
‰
Perseguono con pragmatica durezza i loro obiettivi
I primi due contesti (contrassegnati da un pallino) esemplificano un significato diverso da quello
attestato nei contesti successivi (contrassegnati da un quadratino). Questa intuizione non trova
conferma nelle risorse lessicali prese come riferimento: IWN, Zingarelli e Garzanti non distinguono
i due sensi di perseguire. Passiamo dunque a valutare la situazione applicando la batteria di criteri
riportata sopra.
Non sembra ci siano sinonimi precisi per i due sensi, tuttavia se si usa una perifrasi si avverte
maggiormente la differenza tra i due significati: cercare di raggiugere uno scopo/ *un reato; *una
persona (Criterio_4). Perseguire un reato / una persona ha un significato specifico in ambito
D-95
Linea 1.1 - Treebank sintattico-semantica dell'italiano
giuridico e legale ed in effetti questo senso del verbo co-occorre nel corpus con altre parole dello
stesso campo semantico (es. reato, violazione, delinquenza, evasione fiscale, evasori, presunto
colpevole, imputato, crimine, magistrato, tribunale, Corte dei Conti ecc.) (Criterio_5). Infine,
l’oggetto diretto nel primo esempio ha una connotazione fortemente negativa, mentre perseguire
uno scopo ne ha una positiva. Tuttavia quest’ultimo criterio è soltanto parzialmente applicabile e
quindi non è particolarmente discriminante (es. perseguire un innocente / perseguire la distruzione
dello stato). Ciò che appare certo è che soltanto con il significato legale, giuridico, perseguire può
avere come oggetto diretto un ‘umano, entità vivente’ (Criterio_2). Criterio_6: appaiono
semanticamente inaccettabili le seguenti frasi: *Leo persegue il suo scopo, così il giudice
l’imputato; *Leo ha perseguito il suo scopo e l’imputato. Infine da un punto di vista della
traduzione c’è una differenza tra i due sensi (to pursue/to prosecute; to indict) (Criterio_8).
6 Specifiche del software per l’annotazione e la navigazione nella
Treebank
Il sistema Gestalt (Grafical TAL annotation tool) ha lo scopo di gestire la base di testi annotati ai
livelli sintattico, a costituenti e funzionale, e semantico-lessicale. Il sistema è pensato per facilitare
il lavoro degli annotatori e dei validatori da un lato e degli utenti e utilizzatori della Treebank
dall’altro. In quanto segue, si farà costantemente riferimento agli annotatori ed ai validatori dato che
le esigenze dei futuri utenti sono state identificate con quelle dei validatori.
La gestione consiste nella possibilità di salvare, modificare, consultare e interrogare tutte le
informazioni relative ai testi del corpus e alle annotazioni sintattiche, a costituenti e funzionali, e
semantiche su di essi fatte.
Per ciascuna tipologia di utenza corrente (annotatori e validatori) il sistema fornisce le
informazioni necessarie per prendere la decisione sull’annotazione come definito nei requisiti utente
(l’annotazione è divisa in tre livelli: (i) livello sintattico a costituenti; (ii) livello sintatticofunzionale; (iii) livello semantico-lessicale).
Per ottimizzare i tempi è stato concordato che le diverse modalità di annotazione vengano
prodotte contemporaneamente, per cui il sistema supporterà gli annotatori che lavoreranno
separatamente su porzioni della base di documenti e annoteranno un livello singolo. I validatori
lavoreranno su porzioni della base di documenti e navigheranno tra i tre livelli di annotazione.
Le esigenze diverse poste dalle varie tipologie di utenti portano a definire un sistema
disaccoppiato composto da quattro sottosistemi: (i) sottosistema di annotazione sintattica a
costituenti SinTAS; (ii) sottosistema di annotazione sintattico-funzionale FunTAS; (iii) sottosistema
di annotazione semantico-lessicale SemTAS; (iiii) sottosistema di validazione ValTAS.
L’interoperabilità dei sottosistemi è garantita dalla tecnologia comune utilizzata nel loro sviluppo
e dalle rappresentazioni comuni delle annotazioni dei documenti che essi adottano.
I sottosistemi di annotazione (ovvero SinTAS, FunTAS e SemTAS) richiedono lo sviluppo di
interfacce grafiche al fine di presentare efficacemente sia il corpus che le annotazioni pertinenti.
All’interno di questi sottosistemi è possibile modellare la gestione dei documenti per quanto
concerne le operazioni di ricerca e modifica delle annotazioni.
Le necessità di gestione dei documenti imposte dal sottosistema di validazione ValTAS sono
molteplici e quindi richiedono una versatilità quale quella fornita dal linguaggio di interrogazione di
un sistema di gestione di basi di dati.
D-96
Linea 1.1 - Treebank sintattico-semantica dell'italiano
In questa sezione vengono analizzati i requisiti funzionali del sistema Gestalt (§ 6.1) studiandoli
nei vari sottosistemi (§§ 6.1.1, 6.1.2, 6.1.3 e 6.1.4), vengono presentate le relative architetture (§
6.2) e i requisiti software del sistema complessivo(§ 6.3).
6.1
Requisiti Funzionali
Il sistema di annotazione è progettato per soddisfare le esigenze di quattro classi di utenti della
treebank: gli annotatori della struttura sintattica a costituenti, gli annotatori della struttura
sintattico-funzionale, gli annotatori semantico-lessicali e i validatori. Gli annotatori creano la
risorsa treebank partendo da una base di documenti annotata morfo-sintatticamente, mentre i
validatori controllano che la risorsa sia stata ben annotata.
Vengono descritte in questo paragrafo le interfacce che il sistema Gestalt propone alle differenti
classi di utenti e il sottoinsieme della base di documenti annotata (BDA) che viene trattato dalla
singola classe di utenti.
Il lavoro degli annotatori e quello dei validatori differisce per tipologia di operazioni che fanno
sulla BDA e sulla visibilità che questi vogliono avere sui dati. Le tre classi di annotatori (sintattici a
costituenti e funzionali, e semantico-lessicali) sono interessate a partire dalla base di documenti così
come è annotata allo stato iniziale (ovvero morfo-sintatticamente) per produrre la loro tipologia di
rappresentazione (rispettivamente annotazioni sintattiche a costituenti, sintattico-funzionali e
semantico-lessicali). Quindi tali classi di utenti intendono lavorare ognuno, separatamente, al
proprio livello. A loro, dunque, viene fornita dai sistemi SinTAS, FunTAS e SemTAS una visione
parziale della BDA. Al contrario, i validatori necessitano di una visione globale della BDA che
permetta loro sia di verificare le scelte fatte dagli annotatori sia di verificare la congruenza tra
livelli.
Il lavoro degli annotatori è caratterizzato da una procedura di annotazione e da un sottoinsieme
di informazioni della BDA su cui questi operano. Per gli annotatori vengono costruiti tre sistemi
SinTAS, FunTAS e SemTAS indipendenti che seguono gli stessi standard e che confluiranno come
parti nel sistema ValTAS dei valutatori. L’indipendenza tra i sottosistemi ha il duplice scopo di
rendere più agile l’annotazione ed evitare l’interferenza tra i livelli.
Il sistema è globale è rappresentato nella Figura 1. Il sistema Gestalt facilita il passaggio dal
corpus annotato morfo-sintatticamente al corpus annotato ai livelli sintattici e semantico-lessicali
attraverso i sottosistemi componenti dedicati SinTAS, FunTAS, SemTAS e ValTAS.
Gestalt
SemTAS
FunTAS
ValTAS
SinTAS
Corpus
TAL-Treebank
Corpus annotato ai
livelli sintattico,
funzionale e semantico
Figura 1 Gestalt: sistema di gestione dell’annotazione del treebank sintattico-semantico
D-97
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Per ciascuna sottoparte del sistema rivolta agli annotatori vengono specificate le funzionalità che
il sistema implementa per la particolare classe in termini di: (i) procedura di annotazione che viene
favorita; (ii) sottoinsieme di informazioni contenute nella BDA che viene utilizzato e le modalità di
accesso che vengono richieste; (iii) funzionalità dell’interfaccia utente del sistema per la particolare
classe di utenti.
6.1.1 Annotazione Sintattica a costituenti
L’annotazione sintattica ha lo scopo di fornire una rappresentazione sintattica di ogni frase
appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o multi-word) sono
morfo-sintatticamente analizzate (si veda sezione 2 per maggiori dettagli). L’annotazione procede
per frase così come queste sono presenti nel testo. In fase di annotazione, il contesto della frase
analizzata è necessario per prendere decisioni di annotazione.
L’interfaccia utente visualizzerà in forma grafica l’interpretazione sintattica relativa a ciascuna
frase nello stato in cui essa si trova, la stessa frase analizzata morfo-sintatticamente e il documento
in cui questa frase è situata. Permetterà inoltre la definizione e la modifica dei costituenti complessi
tramite l’accorpamento di costituenti semplici o complessi e la divisione di costituenti complessi. In
tale modo supporterà procedure di annotazione top-down, bottom-up e ibride. Operazioni di
accorpamento di nodi terminali o non terminali e di divisione di non terminali renderanno possibile
il controllo a video dello stato di annotazione della frase. Inoltre, lo stato di annotazione dell’intero
corpus, in base allo stato di annotazione delle singole frasi, verrà anche reso disponibile. Il
sottosistema infatti permetterà di memorizzare l’interpretazione sintattica relativa ad ogni frase e lo
stato dell’annotazione stessa.
6.1.2 Annotazione Sintattico-funzionale
L’annotazione funzionale ha lo scopo di fornire una rappresentazione funzionale di ogni frase
appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o multi-word) sono
morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso utilizzato come
sorgente per la annotazione a costituenti. L’annotazione procede per frase così come queste sono
presenti nel testo. In fase di annotazione, il contesto della frase analizzata è necessario per prendere
decisioni di annotazione e quindi deve essere accessibile all’annotatore (cioè visualizzato in forma
esplicita).
L’interfaccia utente inoltre visualizzerà in forma grafica l’interpretazione funzionale relativa ad
una frase nello stato in cui essa si trova, la stessa frase analizzata morfo-sintatticamente e il
documento in cui questa frase è situata. Permetterà di definire e modificare le relazioni funzionali
tra le parole della frase partendo dalle relazioni funzionali esistenti e dalle parole analizzate morfosintatticamente. Il sottosistema permetterà di memorizzare l’interpretazione funzionale relativa ad
ogni frase e lo stato dell’annotazione stessa.
6.1.3 Annotazione Semantico-Lessicale
L’annotazione semantico-lessicale ha lo scopo di fornire una rappresentazione semantica per
ogni parola piena appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o
multi-word) sono morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso
D-98
Linea 1.1 - Treebank sintattico-semantica dell'italiano
utilizzato come sorgente per la annotazione sintattica e funzionale. L’annotazione procede per unità
semantico-lessicale (ovvero un lemma o un gruppo di lemmi). In fase di annotazione di una unità
semantico lessicale, il contesto interessante è rappresentato da tutte le frasi del corpus contenenti
tale unità. Si desidera procedere annotando tutte le occorrenze di una unità semantico-lessicale.
Nell’analisi di una unità semantica semplice (corrispondente ad un lemma), l’annotatore può
decidere di costruire una unità semantica complessa (composta di più lemmi non necessariamente
contigui).
L’interfaccia del sottosistema visualizzerà l’insieme delle frasi del corpus contenenti una istanza
dell’unità semantica in analisi, fornendo la possibilità di inserire o modificare le interpretazioni
semantiche dell’unità in ogni sua occorrenza. Le possibili interpretazioni semantiche sono quelle
fornite da Italwordnet. La disponibilità di entrambe le interfacce (cioe’ SemTas e ItalWordnet) sulla
stessa piattaforma renderà possibile nella prima fase della annotazione mettere a disposizione degli
annotatori le informazioni necessarie (insieme dei sensi e frasi).
Le azioni che il sottosistema compierà sulla base di documenti sottostante sono la definizione e
la modifica delle unità semantiche e delle interpretazioni ad esse relative.
6.1.4 Validazione
La validazione ha lo scopo di controllare che il lavoro di annotazione precedentemente compiuto
dagli annotatori sia corretto e qualora non lo sia, ha lo scopo di provvedere alla sua correzione.
Il punto di partenza è il corpus in cui tutte le parole (e/o multi-word) sono morfo-sintatticamente
analizzate oltre ai risultati delle tre diverse fasi di annotazioni sintattiche, funzionali e semantiche.
La procedura di validazione è non vincolata. Poiché i validatori sono interessati allo stato di
validazione del corpus e sono interessati a visionarlo nel modo più libero possibile, ad essi deve
essere fornita la capacità elaborativa e di interrogazione tipiche di un sistema di gestione di base di
dati.
6.2
Architettura del sistema
Il sistema sarà composto di quattro sottosistemi indipendenti dedicati alle quattro classi di utenti
definite precedentemente. I sottosistemi saranno indipendenti ma cooperanti, nel senso che
tratteranno tipologie di dati omogenee. Tre sistemi saranno dedicati alle tre tipologie di annotatori,
mentre un sistema sarà dedicato ai validatori. Nel sistema dedicato ai validatori confluiranno i
moduli di interfaccia sviluppati per gli altri sistemi, poiché tutte le funzionalità principali di
inserimento (disponibili già agli annotatori) dovranno anche essere disponibili per le modifiche in
fase di validazione.
Le interfacce permetteranno un inserimento guidato dei dati in una maniera amichevole. Infatti,
la rappresentazione dei dati utilizzerà rappresentazioni grafiche per strutture complesse, quali grafi
e alberi. Questo permetterà all’utente una interazione logica indipendente dai formati e dalle
strutture di memorizzazione delle informazioni.
I sottosistemi dedicati agli annotatori ricevono in ingresso il corpus annotato morfosintatticamente in formato XML, lo tradurranno in una rappresentazione interna gestibile da un
Data Base Management System orientato agli oggetti (OODBMS), permetteranno all’utente la
D-99
Linea 1.1 - Treebank sintattico-semantica dell'italiano
modifica delle informazioni presenti nel database interno e infine tradurranno il formato interno nel
formato XML di rappresentazione esterno. Queste funzionalità saranno realizzate in quattro moduli:
1) due interfacce di ingresso/uscita dei dati, Wrapper IN e Wrapper OUT, per tradurre i dati dal
formato di rappresentazione esterno a quello interno e viceversa;
2) una interfaccia grafica per facilitare le operazioni di annotazione;
3) un gestore delle interazioni tra l’interfaccia Grafica (GUI) e il Data Base Mangement
System per gestire le operazioni complesse di accesso alla Base di Dati.
Le tre architetture dei sottosistemi per gli annotatori sintattici, funzionali e morfologici sono
presentate rispettivamente in Figura 2, Figura 3 e Figura 4.
GUI
Sintattica
Gestore Sintattico
XML-Files
Corpus Annotato
Morfologicamente
XML-Files
Corpus Annotato
Morfo-Sintatticamente
Wrapper OUT
Wrapper IN
(OO)DBMS
Figura 2 SinTAS: Sistema di annotazione sintattica
GUI
Funzionale
Gestore Funzionale
XML-Files
Corpus Annotato
Morfologicamente
XML-Files
Corpus Annotato
Morfo-Funzionalmente
Wrapper OUT
Wrapper IN
(OO)DBMS
Figura 3 FunTAS: Sistema di annotazione funzionale
GUI
Semantica
Gestore Semantico
XML-Files
Corpus Annotato
Morfologicamente
XML-Files
Corpus Annotato
Morfo-Semanticamente
Wrapper OUT
Wrapper IN
(OO)DBMS
Figura 4 SemTAS: Sistema annotazione semantica
Il validatore sarà supportato da un sistema che gli permetterà una visione complessiva dei dati
contenuti nella treebank. Il sistema integrerà in primo luogo i dati in XML annotati morfosintatticamente e quelli provenienti dalle attività di annotazione sintattica a costituenti e funzionale
e semantico-lessicale per produrre una rappresentazione interna unificante del corpus, permetterà
quindi la correzione dei dati e, infine, la scrittura del corpus nel formalismo XML esterno (standard
per la Treebank TAL). Le funzionalità saranno realizzate in quattro moduli:
2) un integratore Shaker delle diverse rappresentazioni del corpus (morfo-sintattica, sintattica a
costituenti e funzionale e semantico-lessicale);
3) un’interfaccia ai dati, Wrapper OUT, per trasformare il corpus dal formato di
rappresentazione interno a quello esterno;
D-100
Linea 1.1 - Treebank sintattico-semantica dell'italiano
4) una interfaccia grafica per facilitare le operazioni agli utenti e che raccoglierà le interfacce
generate per gli altri sottosistemi ampliandole con le funzionalità specifiche;
5) un gestore unificato delle interazioni tra l’interfaccia Grafica (GUI) e il Data Base
Management System per gestire le operazioni complesse di accesso alla Base di Dati.
L’architettura del sistema viene presentata in Figura 5.
GUI
Sintattica
GUI
Funzionale
GestoreUnificato
Sintattico, Funzionale e
Semantico
XML-Files
Corpus Annotato
Morfologicamente,
Sintatticamente,
Funzionalmente e
Semanticamente
GUI
Semantica
XML-Files
Corpus Annotato
Wrapper OUT
Shaker
(OO)DBMS
Figura 5 ValTAS: Sistema per i validatori
6.3
Requisiti Software
I sistemi saranno sviluppati in JDK 1.1.4 su una infrastruttura Windows NT 4.0 e richiederanno
il sistema di gestione di basi di dati orientato agli oggetti ObjectStore versione 5.0. Java è da
preferirsi come linguaggio di implementazione dell’interfaccia per la elevata portabilità e per la
realizzazione del sottosistema Treebank come architettura client-server.
Per quanto riguarda il server, la scelta di Java semplifica l’implementazione e aumenta le
potenzialità dell’architettura.
L’uso di un sistema di gestione di basi di dati è necessario per garantire l’efficienza e la
versatilità nelle query richiesta dai validatori. In particolare, l’adozione di un sistema orientato agli
oggetti facilita l’interazione dei diversi client per le interfacce con i dati persistenti, basata su un
linguaggio di programmazione ad oggetti. Le annotazioni trattate in ingresso e in uscita dai
sottosistemi seguiranno lo standard di linguaggio di Mark-Up XML nella sua versione 1.0.
7 Valutazione
La valutazione della risorsa Treebank, articolata nei suoi diversi livelli di annotazione, verrà
condotta testando:
•
l’accuratezza e la completezza dell’annotazione (valutazione interna);
•
integrando le informazioni da essa derivate in sistemi di Natural Language Processing e
verificandone i risultati (valutazione esterna).
D-101
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Le modalità di valutazione interna della Treebank di SI-TAL verranno definite e dettagliate in
seguito, durante la linea 1.2, sulla base delle specifiche interne ai singoli livelli e loro interrelazioni.
In questa sezione ci concentreremo sulle modalità di valutazione esterna che verrà condotta
mediante l’utilizzo della Treebank in un sistema applicativo di traduzione automatica sviluppato da
Synthema. In quanto segue, dopo una rapida descrizione del sistema di traduzione (sezione 7.1.1),
verranno illustrate le modalità di questa valutazione ed in particolare l’adattamento del sistema di
traduzione automatica in base alle informazioni derivate dalla Treebank (sezione 7.1.2) e la
definizione dei criteri per misurare come e in quale misura le prestazioni del sistema possano
migliorare tramite l’uso di tale risorsa (sezione 7.1.3).
7.1.1 Rapida descrizione del sistema di traduzione
Il sistema di traduzione automatica realizzato da Synthema (PeTra® per Word 2.0) è
un’applicazione basata sul formalismo delle Slot Grammar, definito da Michael McCord (IBM T. J.
Watson Research Center). E’ un prodotto completo e funzionante, e attualmente utilizzato con
buoni risultati nel campo della traduzione automatica, in ambiente Windows.
Il sistema include:
-
un componente di analisi per la lingua Italiana, comprendente un Analizzatore morfologico,
un Dizionario monolingua, un Insieme di regole sintattiche e il relativo parser;
-
un dizionario bilingue, con opportune funzionalità di disambiguazione lessicale (‘transfer’
lessicale);
-
un componente per il ‘transfer’ (‘transfer’ sintattico), con relativa grammatica contrastiva
Italiano Æ Inglese;
-
un componente di generazione morfologica per la lingua inglese.
Nel seguito di questa sezione descriviamo più in dettaglio i componenti del sistema che saranno
coinvolti nelle modifiche che verranno realizzate per mezzo delle informazioni contenute nella
Treebank.
Analisi
L’Analizzatore morfologico si occupa di individuare i possibili Lemmi da cui derivano le forme
flesse presenti nel testo sorgente.
Viene quindi verificata la presenza di tali lemmi nel dizionario italiano, prelevando le
informazioni relative. Attualmente il dizionario è composto da più di 20.000 lemmi, per ciascuno
dei quali vengono specificate, oltre alla POS (‘Part Of Speech’) per la lingua sorgente (o le POS in
caso di lemmi omografi), le caratteristiche sintattiche in termini di Slot. Gli Slot corrispondono ad
argomenti logico-funzionali delle parole a cui sono legati. Essi hanno anche una natura morfosintattica, perché in generale possono essere riempiti solo da alcune categorie specificate nelle
regole della grammatica.
Le regole di analisi specificano le condizioni di riempimento degli Slot consentendo la
costruzione automatica di un albero che rappresenti la frase in ingresso. La grammatica formalizza
quindi in termini di Slot le regole grammaticali italiane al fine di ottenere un albero che permetta la
migliore traduzione possibile.
D-102
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Il parser procede tentando di applicare le regole di analisi a partire dalle singole parole. Ogni
regola che risulta applicabile costruisce un legame funzionale fra due elementi, uno dei quali va a
riempire uno Slot dell’altro diventandone un modificatore. Il procedimento continua applicando le
regole solo alle teste dei sottoalberi così creati, fino alla costruzione di un albero che rappresenti
l’intera frase.
(1) La mia casa è bella.
Phrase (0.1) from 1 to 3 added:
-----------------------------------------------------------------------+- nadj mio1(2)
adj([f,sg,X4|X5],X6)
o- top casa1(3,u) noun(cn,[f|sg],X1) nobj(p(di))
-----------------------------------------------------------------------Phrase (0.2) from 0 to 3 added:
-----------------------------------------------------------------------+- ndet lo1(1)
det([f,sg|w],def)
+- nadj mio1(2)
adj([f,sg,X4|X5],X6)
o- top casa1(3,u) noun(cn,[f|sg],X1) nobj(p(di))
-----------------------------------------------------------------------Phrase (0.12) from 0 to 4 added:
-----------------------------------------------------------------------+- ndet
lo1(1)
det([f,sg|w],def)
+- nadj
mio1(2)
adj([f,sg,X7|X8],X9)
+-¦ subj(n) casa1(3,u)
noun(cn,[f|sg],X4) nobj(p(di))
o--- top
essere1(4,3,u) verb(fin([pers3|sg],pres,X1)) subj(n|v):3 pred
-----------------------------------------------------------------------Phrase (0.22) from 0 to 5 added:
-----------------------------------------------------------------------+- ndet
lo1(1)
det([f,sg|w],def)
+- nadj
mio1(2)
adj([f,sg,X5|X6],X7)
+-¦ subj(n) casa1(3,u)
noun(cn,[f|sg],X2) nobj(p(di))
o--- top
essere1(4,3,5) verb(fin([pers3|sg],pres,X1)) subj(n|v):3 pred:5
+--- pred
bello1(5)
adj([f,sg,X8|X9],X10)
------------------------------------------------------------------------
Dizionario bilingue
A questo punto è possibile scegliere nel dizionario bilingue la traduzione di ogni singola parola,
eventualmente dipendente da opportuni test (‘transfer’ lessicale). La costruzione dell’albero ha
determinato infatti la scelta di una sola POS per ogni termine e i legami funzionali permettono di
disambiguare, sulla base delle condizioni specificate in termini di Slot: la traduzione di un verbo, ad
esempio, può dipendere spesso dal termine che ne “riempie” l’oggetto.
Transfer sintattico
La generazione di una frase inglese corretta richiede generalmente anche trasformazioni
strutturali che possono coinvolgere tutto l’albero o solo alcuni sottoalberi.
Le regole di ‘transfer’ trattano, appunto, le differenze di costruzione che caratterizzano le due
lingue e specificano le necessarie modifiche da apportare all’albero. Queste trasformazioni possono
essere di natura generale (in inglese, ad esempio, deve essere sempre specificato il soggetto che in
italiano può essere sottinteso) o legate a particolari costruzioni ed essere eventualmente richiamate
dal dizionario bilingue in corrispondenza dei lemmi coinvolti.
D-103
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(2) Gli piacciono questi libri.
Syntactic analysis no. 1.
Evaluation = 0.21 ...
-----------------------------------------------------------------------+--- iobj(n) egli2(1)
noun(pron(pers),[pers3,m,sg,dat|pre],X2)
o--- top
piacere1(2,4,1) verb(fin([pers3|pl],pres,ind:dcl:nwh))
| +- ndet
questo3(3)
det([m,pl|X4],demo)
+-| subj(n) libro1(4,u)
noun(cn,[m|pl],X3)
-----------------------------------------------------------------------Transfer tree...
-----------------------------------------------------------------------+--- iobj(n) he
noun(pron(pers),dat,pers3-sg-m,X2)
o--- top
like verb(ind:top,fin(pers3-pl-m,pres,ind:dcl:nwh):X1,[])
| +- ndet
this det(nom,pers3-pl-m,X3)
+-| subj(n) book noun(cn,nom,pers3-pl-m,X3)
-----------------------------------------------------------------------Transformation datnom transforms tree...
-----------------------------------------------------------------------+--- iobj(n) he
noun(pron(pers),dat,pers3-sg-m,X2)
o--- top
like verb(ind:top,fin(pers3-pl-m,pres,ind:dcl:nwh):X1,[])
| +- ndet
this det(nom,pers3-pl-m,X3)
+-| subj(n) book noun(cn,nom,pers3-pl-m,X3)
-----------------------------------------------------------------------into tree...
-----------------------------------------------------------------------+--- subj(n) he
noun(pron(pers),nom,pers3-sg-m,X2)
o--- top
like verb(ind:top,fin(pers3-sg-m,pres,ind:dcl:nwh):X1,[])
| +- ndet
this det(nom,pers3-pl-m,X3)
+-| obj(n) book noun(cn,acc,pers3-pl-m,X3)
-----------------------------------------------------------------------Restructured tree.
-----------------------------------------------------------------------+--- subj(n) he
noun(pron(pers),nom,pers3-sg-m,X2)
o--- top
like verb(ind:top,fin(pers3-sg-m,pres,ind:dcl:nwh):X1,[])
| +- ndet
this det(nom,pers3-pl-m,X3)
+-| obj(n) book noun(cn,acc,pers3-pl-m,X3)
-----------------------------------------------------------------------He likes these books.
7.1.2 Modifiche al sistema di traduzione e modalità di interrogazione della Treebank
I paragrafi seguenti illustrano le modifiche che verranno apportare alle singole parti del sistema
di traduzione. In relazione a ciascuna modifica saranno discusse le modalità secondo le quali dalla
Treebank verranno prelevate le informazioni da utilizzare, per le diverse annotazioni.
7.1.2.1 Modifiche da apportare al contenuto dei dizionari
Il contenuto dei dizionari verrà modificato con l’aggiunta di nuove entrate e con l’aumento delle
disambiguazioni in relazione alle entrate attualmente presenti, secondo le strategie che andiamo a
descrivere.
D-104
Linea 1.1 - Treebank sintattico-semantica dell'italiano
E’ lecito pensare che l’ambito specialistico realizzi un uso particolare di forme aventi in altri
contesti significati e costruzioni diverse: la copertura di tale casistica potrebbe avere un ruolo
rilevante nella modifiche da apportare.
7.1.2.1.1
Aggiunta dei lemmi del corpus mancanti
Il primo accesso alle informazioni rese disponibili dalla Treebank sarà volto alla verifica della
presenza del lessico utilizzato nel corpus, all’interno dei nostri dizionari.
Vista l’attuale copertura (più di 20.000 lemmi), si presuppone che l’insieme dei lemmi assenti sia
composto principalmente da parole appartenenti al linguaggio specialistico.
Per quanto riguarda i lemmi già presenti, potranno essere aggiunte al dizionario monolingua
delle analisi più articolate, rispetto a quelle attualmente presenti, sulla base di particolari costruzioni
individuate all’interno del corpus e reperite consultando le annotazioni sintattiche della Treebank.
Coerentemente verranno aggiunte le relative traduzioni al dizionario bilingue.
7.1.2.1.2
Inserimento di nuove MWE.
Gli elementi contenuti nell’elenco di MWE concordato dai siti preposti all’annotazione, verranno
aggiunti come nuove entrate dei dizionari, secondo la sintassi prevista dal sistema di traduzione.
Tale ampliamento dovrà tenere conto delle specifiche del sistema di traduzione: dovrà essere
evitato il rischio di bloccare il riconoscimento di una parola se questa viene utilizzata in contesti
diversi dalla MWE segnalata.
Il sistema, infatti, blocca tutti i termini che individua all’interno di una MWE attribuendo
all’intero gruppo la POS specificata ed impedendo analisi diverse. Ad es. se fosse definita come
MWE la sequenza per cui ed identificata come congiunzione, risulterebbe impossibile costruire
correttamente l’albero della frase l’uomo per cui lavoro, dove per risulta essere una preposizione e
cui un pronome.
Da ciò segue che prima di aggiungere le MWE dell’elenco individuato al nostro dizionario,
occorre prevedere una fase di analisi manuale, durante la quale verranno prese in esame le singole
componenti di ogni MWE e il ruolo che ciascuna di tali componenti assume nella composizione
delle frasi: solo quelle che non provocano effetti collaterali analoghi a quelli descritti sopra
verranno inserite come entrate dei dizionari.
7.1.2.1.3
Analisi dell’annotazione semantica
L’analisi del risultato dell’annotazione semantica del corpus comporterà l’ampliamento della
struttura semantico-gerarchica del dizionario ed una più precisa classificazione delle parole presenti.
Nel dizionario, infatti, è prevista la possibilità di attribuire ad un temine il relativo ‘semantic
type’: attributo semantico che può essere testato in vari punti all’interno del sistema, in particolare
nelle condizioni di disambiguazione del ‘transfer’ lessicale.
Per arrivare a tale risultato occorre prevedere una fase di studio / conversione tra i sensi utilizzati
nell’annotazione semantica e i ‘semantic type’ attualmente previsti nel sistema di traduzione.
D-105
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Le attività previste sono le seguenti:
-
individuazione della corrispondenza dei sensi presenti nel nostro dizionario con quelli
presenti nella Treebank
-
completamento dell’inserimento di tali sensi nei lemmi che ne sono attualmente privi
-
individuazione, tra i sensi della Treebank non presenti nel nostro insieme, dei sensi utili alle
disambiguazioni in fase di traduzione
-
inserimento dei sensi individuati nel passo precedente nelle relative entrate del dizionario
Questa operazione sarà completata durante una prima fase di verifica, nella quale, analizzando la
traduzione ottenuta, saranno individuate le situazioni in cui è utile e opportuno inserire delle
disambiguazioni all’interno del dizionario utilizzando i ‘semantic type’ aggiunti.
7.1.2.2 Ampliamento e raffinamento dell’insieme delle regole di analisi
Le modifiche all’insieme delle regole della grammatica del sistema di traduzione avverrà
rielaborando le informazioni ottenute interrogando la Treebank.
Si accederà alla Treebank con lo scopo di individuare particolari costruzioni e verificarne la
struttura corrispondente nella grammatica di analisi, e per ricercare le strutture o le sottostrutture più
frequenti non ancora previste.
I miglioramenti prevedibili su questo livello sono collegati al dettaglio previsto per l’annotazione
sintattica della Treebank.
7.1.2.2.1
Verifica delle strutture previste
La grammatica attualmente in uso ha una buona copertura ma è lecito pensare che, vista la
complessità e la libertà della struttura frasale della lingua italiana, ci siano delle situazioni descritte
in modo incompleto o non del tutto corretto. In particolare, essendo il corpus di tipo specialistico, è
probabile che sia caratterizzato dalla presenza di costruzioni gergali non usate nell’italiano standard.
L’accesso alla Treebank potrà avvenire per mezzo delle relazioni funzionali che legano una testa
al suo dipendente. Dall’insieme delle relazioni binarie così individuate, verranno estratte quelle
accomunate da un’opportuna combinazioni di tratti. Così facendo si potrà stabilire una
corrispondenza tra le strutture individuate dalle annotazioni sintattiche funzionale e a costituenti, e
le strutture utilizzate dalla nostra grammatica al fine di studiarne la completezza.
Le prove di traduzione individueranno inoltre le frasi mal riconosciute dalla nostra attuale
grammatica; in questi casi si potrà intervenire sulle regole in modo più generale cercando di reperire
nella Treebank tutte le strutture “simili” coinvolte.
Si prevede di procedere come segue:
-
accedere alla Treebank per mezzo della frase al fine di risalire alla relativa annotazione
sintattica funzionale e a costituenti;
D-106
Linea 1.1 - Treebank sintattico-semantica dell'italiano
-
studiare le informazioni delle due annotazioni così ottenute per individuare la casistica non
coperta;
-
individuare altre presenze di quel tipo di annotazione all’interno del corpus;
-
analizzare le situazioni analoghe trovate per decidere se e come sia possibile intervenire.
7.1.2.3 Ampliamento e raffinamento dell’insieme delle regole di ‘transfer’
E’ probabile che nel linguaggio specialistico del corpus siano presenti strutture particolari che
richiedono regole di ‘transfer’ specifiche e quindi non ancora previste. Analizzando quanto di
nuovo è stato inserito nelle regole di analisi, oltre che rivedendo le prove di traduzione, sarà
possibile migliorare il set delle regole che realizzano il ‘transfer’ sintattico.
7.1.3 Valutazione dei risultati
7.1.3.1 Individuazione di un corpus sul quale effettuare la validazione
La validazione dei risultati ottenuti avverrà per mezzo di un processo di traduzione realizzato su
un corpus appositamente selezionato.
Tale corpus appartiene allo stesso dominio specialistico dei testi annotati della Treebank.
L’attività di ‘tuning’ del sistema e le verifiche eseguite prima e dopo la modifica del sistema stesso
verranno effettuate su tale sottoinsieme, avente caratteristiche tali da permettere la concreta
fattibilità dello sviluppo e dei test.
7.1.3.2 Criteri per la valutazione
La valutazione verificherà il miglioramento dei risultati ottenuti dopo aver effettuato il ‘tuning’
del sistema di traduzione.
Il software prodotto sarà di supporto per il valutatore, che verrà messo in condizione di
consultare interattivamente il testo sorgente in italiano e la corrispondente traduzione. Il valutatore
avrà quindi la possibilità di assegnare un punteggio a ciascuna frase tradotta (secondo i criteri che
descriveremo più avanti) e sulla base dei singoli risultati verrà fatta la stima della bontà delle
traduzioni realizzate. Il risultato complessivo verrà quindi confrontato con quello ottenuto
utilizzando gli stessi criteri sulla traduzione dello stesso corpus, ma con il sistema privo delle
modifiche dovute all’utilizzo della Treebank.
Nel definire i criteri di valutazione della “bontà” della traduzione, ci siamo ispirati ai criteri usati
con profitto da aziende di traduzione professionale (operanti nel settore della manualistica tecnica)
per i test a campione sui risultati ottenuti. Riteniamo che la validità dei risultati ottenuti in un
diverso settore professionale costituiscano un ottimo punto di partenza.
La tabella riportata di seguito descrive nel dettaglio i criteri di assegnazione del punteggio: al
diminuire di esso, corrisponde una diminuzione del livello di correttezza.
La frase tradotta è perfettamente comprensibile e riflette correttamente il
D-107
3
Linea 1.1 - Treebank sintattico-semantica dell'italiano
significato dell’originale
In questo caso saranno ammessi anche alcuni piccoli errori, purché il significato
della frase non ne venga alterato. Gli errori sono in realtà delle piccole imperfezioni
presenti nella costruzione della frase nel linguaggio target che non provocano
incomprensioni alla frase risultante, e neanche incongruenze semantiche tra le frasi
sorgente e destinazione.
Nella traduzione sono presenti alcuni errori, ma la frase è comunque
comprensibile e riflette prevalentemente il significato della frase sorgente
2
Gli errori ammessi potranno essere sia di tipo sintattico, che lessicale o
grammaticale. La frase risultante non è in ottimo inglese, ma il senso non risulta
compromesso dalla fase di traduzione: continua a riflettere il senso delle frase
originale.
La maggior parte della traduzione non è completamente comprensibile e/o
conforme all’originale.
1
La traduzione non ha dato buoni risultati per cui la frase non è perfettamente
comprensibile o, se lo è, non riflette appieno il significato della frase originale.
La frase sorgente non è stata tradotta o, pur risultando comprensibile, non riflette
il significato dell’originale (grave errore di traduzione).
0
La frase viene restituita nella stessa lingua del sorgente perché il sistema non è
stato in grado di tradurla o, nel caso in cui viene restituita tradotta, non ha un senso
corrispondente alla frase sorgente.
Nel caso in cui i risultati ottenuti dovessero portare a situazioni in cui l’individuazione
dell’appartenenza di una frase a una categoria piuttosto che ad un’altra fosse eccessivamente
difficoltosa, potremo decidere di utilizzare uno schema di valutazione più sintetico, in cui, ad es., le
frasi sono classificate soltanto in base alla presenza o meno di un miglioramento, in seguito alla fase
di ‘tuning’.
Una valutazione più articolata potrebbe inoltre venire dal confronto delle parole non trovate e
degli alberi non chiusi, segnalati automaticamente dal sistema, in modo da valutare anche i
miglioramenti ottenuti a livello dei singoli componenti.
D-108
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Riferimenti bibliografici
Alonge, A., Bertagna, F., Calzolari, N., Roventini A. 1999. The Italian Wordnet. In: EWN CD-Rom
(anche: http://www.hum.uva.nl/~ewn).
Atkins B.T., J. Kegl, B. Levin, 1988, “Anatomy of a Verb Entry: from Linguistic Theory to
Lexicographic Practice”, International Journal of Lexicography 1, pp. 84-126.
Bémová A., J. Hajic, B. Hladká, J. Panenová, 1999, “Syntactic tagging of the The Prague
dependency Treebank”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les
corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris,
disponibili all’indirizzo http://www.biomath.jussieu.fr/ATALA/.
Bresnan J., (ed.), 1982, The Mental Representation of Grammatical Relations, The MIT Press,
Cambridge-Massachusetts.
Calzolari N., O. Corazzari, (in corso di pubblicazione), “Senseval/Romanseval: the framework for
Italian”, Computers and the Humanities, Kluwer Academic Publishers, Dordrecht.
Calzolari N., O. Corazzari, M. Monachini, A. Roventini, 1996, “Speech Act and Perception Verbs:
Generalizations and Contrastive Aspects”, in EURALEX-96 Proceedings, Goteborg University,
pp. 73-83.
Calzolari N., M. Baker, J.G. Kruyt (eds.), 1995, Towards a network of European Reference
Corpora, Report of the NERC Consortium Feasibility Study, Pisa, Giardini.
Carroll J., E. Briscoe, 1996, “Apportioning development effort in a probabilistic LR parsing system
through evaluation”, in Proceedings of the ACL/SIGDAT Conference on Empirical Methods in
Natural Language Processing, University of Pennsylvania, Philadelphia, PA, pp. 92-100.
Carroll J., E. Briscoe, A. Sanfilippo, 1998, “Parser Evaluation: a Survey and a New Proposal”, in
Proceedings of the First International Conference on Language Resources and Evaluation,
Granada, Spain, 28-30 May, pp. 447-454.
Casadei F., 1996, Metafore ed espressioni idiomatiche, Universita’ di Roma, La Sapienza,
Dipartimento di Scienze del Linguaggio, Roma, Bulzoni Editore.
Chomsky N., 1986, Barriers, MIT Press, Cambridge MA.
Corazzari O., 1992, Phraseological Units, Pisa, NERC Working Paper, NERC-92-WP8-68.
Corazzari O., N. Calzolari, A. Zampolli, 1999, ELSNET: Internal Report, ILC, Pisa.
Corazzari O., M. Monachini, 1995, ELSNET: Italian Corpus Sample, ILC-CNR, Pisa.
Cruse D.A., 1986, Lexical Semantics, Cambridge, Cambridge University Press.
Danlos L., 1981, “La morphosyntaxe des espressions figées”, Langages 63, Parigi, Larousse.
Danlos L., 1988, “Les phrases à verbe support etre Prép”, Langages 90, Parigi, Larousse.
D-109
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Fass D., 1991, “met*: A Method for Discriminating Metonymy and Metaphor by Computer”,
Computational Linguistics 17(1), pp. 49-90.
Federici S., S. Montemagni, V. Pirrelli, 1999, “SENSE: an Analogy-based Word Sense
Disambiguation System”, in corso di pubblicazione in M. Light, M. Palmer (eds.), Special
Issue of Natural Language Engineering on Lexical Semantic Tagging.
Fellbaum C., J. Grabowski, S. Landes, 1998 “Performance and Confidence in a Semantic
Annotation Task”, in Wordnet, An Electronic Lexical Database, Cambridge, MIT Press.
Gale A. W., K. W. Church, D. Yarowsky, 1992, “A Method for Disambiguating Word Senses in a
Large Corpus”, Computers and the Humanities 26, pp. 415-439.
Garside R., G. Leech, G. Sampson, (a cura di), 1987, The computational analysis of English. A
corpus-based approach, London, Longman.
Garzanti, 1994, Dizionario Garzanti di Italiano, Milano, Garzanti Editore.
Goggi S., L. Biagini, E. Picchi, R. Bindi, S. Rossi, R. Marinelli, 1997, Italian Corpus
Documentation, LE-PAROLE WP2.11, ILC, Pisa.
Greenbaum S. (ed.), 1996, English Worldwide: The International Corpus of English, Oxford,
Clarendon Press.
Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Boston, Kluwer Academic
Publishers.
Gross M., 1985, “Sur les determinants dans les espressions figées”, Langages 79, Parigi, Larousse.
Gross M., 1986, “The Representation of Compound Words”, in 11th International Conference on
Computational Linguistics, Proceedings of Coling ‘86, Bonn.
Gross M., 1988, “Les limites de la phrase figées”, Langages 90, Parigi, Larousse.
Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi.
Hanks P., 1996, “Contextual Dependency and Lexical Sets”, International Journal of Corpus
Linguistics 1, pp. 75-98.
Hudson R., 1984, Word Grammar, Oxford, Basil Blackwell.
Hudson R., 1988, “The Linguistic Foundations for Lexical Research and Dictionary Design”,
International Journal of Lexicography, 1 (4), pp. 287-312.
Karlsson, F., Voutilainen, A., Heikkila, J. e A. Anttila (eds.). 1995. Constraint Grammar, a
language-independent system for parsing unconstrained text. Berlin e New York: Mouton de
Gruyter.
Kilgarriff A., 1993, “Dictionary word sense distinctions: An enquiry into their nature”, Computers
and the Humanities 26, pp. 365-387.
Landes S., C. Leacock, R. I. Tengi, 1998, “Building Semantic Concordances”, in Wordnet, An
Electronic Lexical Database, Cambridge, MIT Press.
D-110
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Leech G., R. Barnett, P. Kahrel, 1996, Guidelines for the standardization of syntactic annotation of
corpora, EAGLES Document EAG-TCWG-SPT/P.
Leech G., R. Garside, 1991, “Running a grammar factory: the production of syntactically analysed
corpora or ‘treebanks’“, in Johansson S., Stenstrom A.B., English Computer Corpora: Selected
Papers and Research Guide, Berlin, Mouton de Gruyter, pp. 15-32.
Lenci, A., F. Busa, N. Ruimy, E. Gola, M. Monachini, N. Calzolari, A. Zampolli, El. Guimier, G.
Recourcé, L. Humphreys, U. Von Rekovsky, A. Ogonowski, C. McCauley, W. Peters, I. Peters,
M. Villegas (1998). ‘Specifications’, SIMPLE Work, Linguistic Deliverable D2.1, Pisa.
Lenci A., S. Montemagni, V. Pirrelli, C. Soria, K. Netter, M. Rajman, 1999 a, Corpora for
Evaluation, WP5, ELSE (Evaluation in Language and Speech Engineering), LE4-8340.
Lenci A., S. Montemagni, V. Pirrelli, C. Soria, 1999 b, “FAME: a Functional Annotation Metascheme for Multimodal and Multi-lingual Parsing Evaluation”, in Proceeding of the ACL99
Workshop on Computer-Mediated Language Assessment and Evaluation in Natural Language
Processing, University of Maryland, June 22nd .
Lin D., 1998, “A dependency.based method for evaluating broad-coverage parsers”, Natural
Language Engineering 4(2), pp. 97-114.
Marciniak M., A. Mykowiecka, A. Przepiórkowski, A. Kupsc, 1999, “Construction of an HPSG
treebank for Polish”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les
corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris,
disponibili all’indirizzo http://www.biomath.jussieu.fr/ATALA/.
Marcus M., M.A. Marcinkiewicz, B. Cantorini, 1993, “Building a Large Annotated Corpus of
English: The Penn Treebank”, Computational Linguistics 19(2), pp. 313-330.
Marcus M., G. Kim, M.A. Marcinkiewicz, R. McIntyre, R. Bies, A. Ferguson, M. Katz, K.
Schasberger, 1994, “The Penn Treebank: Annotating predicate argument structure”, in
Proceedings of the Human Language Technology Workshop, March 1994, Morgan Kaufman
Publishers Inc., San Francisco, CA.
MATE, 1998, Multilevel Annotation Tools Engineering, <http://mate.nis.sdu.dk>.
Meyers A., K. Macleod, R. Grishman, 1994, “Standardization of the Complement Adjunct
Distinction”, in Proceedings of COLING-94.
Monachini M., 1995, ELM-IT: An Italian Typed Incarnation of The EAGLES Lexicon
Morphosyntactic Specifications, Work in progress, ILC, Pisa.
Monachini, M, 1996 ELM-IT: EAGLES Specifications for Italian Morphosyntax Lexicon
Specification and Classification Guidelines, EAGLES Report, Pisa.
Monachini M., A. Roventini, A. Alonge, N. Calzolari, O. Corazzari, 1994, “Linguistic Analysis of
Italian Perception and Speech Act Verbs”, DELIS Working Paper, ILC, Pisa.
Montemagni S., 1990, Definition, General Features and Taxonomy of Multi Word Expressions,
ILC, Pisa.
D-111
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Montemagni S., 1992, Syntactically annotated corpora: comparing the underlying annotation
schemes, Technical Report NERC-67, ILC Pisa.
Moon R., 1987, “The Analysis of Meaning, in Looking Up, An Account of the Cobuilt Project”, in
Lexical Computing, Birmingham, Collins ELT.
Renzi L., 1995, Grande grammatica italiana di consultazione, Vol.I, Bologna, Il Mulino.
Ruimy N., O. Corazzari, 1991, Be Prep X Frozen Expressions, Eurotra n.13, ILC, Pisa.
Palazzi, Folena, 1995, Dizionario della lingua italiana.
PAROLE, 1996-1998, Preparatory Action for Linguistic Resources Organization for Language
Engineering, LE-4017, Language Engineering.
Picchi E., 1994, “Pi-Tagger: A tagger and lemmatizer for Italian”, in EURALEX-94 Proceedings,
Amsterdam.
Sampson G., 1987, “The grammatical database and parsing system”, in Garside R., Leech G., Sampson
G., (a cura di), pp. 82-96.
Sampson G., 1995, English for the Computer, Oxford, Clarendon Press.
Sampson G., 1998, A proposal for improving the measurement of parse accuracy, manoscritto non
pubblicato.
Samvelian P., 1990, Les constructions etre Prep X: Formalisation et traitement dans le cadre du
project EUROTRA, Memoire de DEA, Universite Paris 7, Parigi.
Sandoval M., A. Lopez Ruesga, S. e F. Sanchez León, 1999, Spanish Tree Bank: Specifications,
Version 4, Manoscritto.
Scalise S., 1995, “La formazione delle parole”, in Grande grammatica italiana di consultazione,
Vol.III, pp. 471-514, Bologna, Il Mulino.
Sinclair J., 1996, “The Empty Lexicon”, International Journal of Corpus Linguistics 1, pp. 99-119.
Somers H., 1984, “On the validity of the Complement-Adjunct Distinction in Valency Grammar”,
in Linguistics, 22, pp. 507-530.
SPARKLE,
Shallow
Parsing
and
Knowledge
Extraction
for
Language
Engineering,
<http://www.ilc.pi.cnr.it/sparkle/sparkle.htm>.
Ten Hacken P., H. Maas, B. Maegaard, 1991, “Dictionaries in Eurotra”, in The Eurotra Linguistic
Specifications, C. Copeland, J. Durand, S. Krawer, B. Maegaard, (eds.), Luxembourg,
Commission of the European Communities.
Thorsten B., S. Wojciech, H. Uszkoreit, 1999, “Syntactic annotation of a German newspaper
corpus”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les corpus annotés
pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, disponibili
all’indirizzo http://www.biomath.jussieu.fr/ATALA/.
D-112
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Voorhees E. M., 1998, “Using WordNet for Text Retrieval”, in Wordnet, An Electronic Lexical
Database, Cambridge, MIT Press.
Zingarelli, 1997, Lo Zingarelli 1997 Vocabolario della Lingua Italiana, Bologna, Zanichelli
Editore.
D-113
Linea 1.1 - Treebank sintattico-semantica dell'italiano
APPENDICE 1: Il tagset per l’annotazione morfo-sintattica
(estratto dalla sezione 3.2 del Capitolo 5 sulle specifiche tecniche relative al tema “Dialoghi
Annotati per Interfacce vocali avanzate”)
1 Introduzione
Il tagset per l’annotazione morfo-sintattica in SI-TAL si basa sul tagset di ILC/PAROLE,
opportunamente esteso e modificato allo scopo di meglio rappresentare i fenomeni tipici del parlato.
La scelta di utilizzare il tagset ILC/PAROLE come punto di partenza assicura il soddisfacimento
della maggior parte dei requisiti generali richiesti ad uno schema di annotazione.
Il tagset di ILC/PAROLE soddisfa infatti il requisito di conformità agli standard esistenti
essendo conforme alle raccomandazioni di EAGLES. Essendo sviluppato per l’italiano, è l’unico
tagset disponibile ad assicurare un alto grado di copertura. Lo schema di annotazione è stato
applicato in altri progetti, assicurando così la sua usabilità e portabilità a domini di applicazione
diversi. Dalla conformità alle specifiche di EAGLES derivano le caratteristiche di flessibilità e
modularità. Infine, precedenti esperienze di annotazione automatica assicurano la portabilità del
tagset all’annotazione semi-automatica. Vi sono inoltre importanti motivi pratici che spingono verso
l’adozione in SI-TAL di una versione modificata ed estesa del tagset ILC/PAROLE. Il primo è il
fatto che il formato di annotazione è compatibile con i requisiti di formato di input del sistema
automatico di analisi sintattica (Chunker, vedi sez. 3.3.2) che verrà usato per l’annotazione
sintattica del corpus. Il secondo è che in tal modo le specifiche morfo-sintattiche per il tema
Dialoghi Annotati sono armonizzate con quelle del tema Treebank, che adotta lo stesso tagset per
l’annotazione morfo-sintattica del corpus. Questo costituisce un importante punto di contatto e
consente, negli usi futuri di SI-TAL, la comparabilità delle risorse per scopi applicativi e di ricerca.
Il tagset ILC/PAROLE originario, pur essendo uno schema sviluppato ed applicato
esclusivamente all’analisi di testi scritti, per le particolari caratteristiche di formato si presta ad
essere modificato e adattato per rappresentare i fenomeni del parlato, che ovviamente non sono
adeguatamente trattati nella versione originaria dello schema. Per questo motivo, lo schema è stato
ampliato e modificato sulla base delle pratiche correnti e dell’esempio dei più recenti sforzi in
materia di annotazione del parlato, in particolare il progetto CHRISTINE (vedi parte II, cap. 2). E’
importante notare tuttavia come le modifiche apportate consistano essenzialmente in ampliamenti
dello schema mediante l’introduzione di categorie aggiuntive o sottocategorie di categorie già
esistenti; in tal modo infatti è assicurata la sostanziale uniformità dello schema con la sua
controparte “scritta”, e lo stesso tagset può essere applicato indifferentemente alla lingua parlata o
alla lingua scritta, con vantaggi evidenti per la portabilità dello schema e per gli usi successivi. Da
questo punto di vista l’annotazione morfo-sintattica in SI-TAL percorre un percorso simile a quello
che, per l’inglese, ha condotto allo sviluppo del corpus CHRISTINE a partire dal corpus SUSANNE:
come in questo caso, uno schema di annotazione morfo-sintattica in uso per lo scritto (in Treebank)
viene adattato ed esteso alla rappresentazione del parlato (in Dialoghi), attraverso stadi successivi di
raffinamento.
Nei paragrafi successivi vengono illustrate le specifiche morfo-sintattiche di base, comuni tanto
alla versione del tagset per lo scritto che a quella per il parlato. Nella sezione 3.2.2 verranno invece
presentate le estensioni relative alla rappresentazione dei principali fenomeni del parlato.
D-114
Linea 1.1 - Treebank sintattico-semantica dell'italiano
1.1
Formato di annotazione
Il formato di annotazione consiste in una stringa di caratteri per ognuna delle categorie
sintattiche. Ogni carattere alfabetico rappresenta il valore di un attributo. I valori degli attributi
hanno delle posizioni fisse e predefinite all’interno della stringa. Per esempio, il valore relativo alla
categoria morfo-sintattica è sempre in posizione iniziale ed è marcato mediante una lettera
maiuscola. Il carattere @ separa l’indicazione della categoria morfo-sintattica dai caratteri che
indicano i tratti morfo-sintattici, anch’essi espressi in lettere maiuscole. Riportiamo qui di seguito le
diverse categorie previste, insieme al simbolo che le rappresenta.
1. Nomi (S)
2. Verbi (V)
3. Aggettivi (A)
4. Pronomi (P)
5. Predeterminatori (T)
6. Determinatori (D)
7. Articoli (R)
8. Avverbi (B)
9. Preposizioni (E)
10. Congiunzioni (C)
11. Numerali (N)
12. Interiezioni (I)
13. Punteggiatura (@@)
14. Abbreviazioni (SA)
15. Classe Residua (X)
1.2
Inventario delle etichette ed esempi
Nei paragrafi successivi elenchiamo le etichette del tagset, per ognuna delle categorie sintattiche.
La prima colonna della tabella contiene l’etichetta nel formato di annotazione, la seconda contiene
la descrizione corrispondente e la terza un esempio di applicazione. Una legenda degli attributi e
valori è riportata alla fine della sezione.
1.2.1 Nomi (S)
Il tagset distingue tra nomi comuni (S), nomi propri (SP) e nomi stranieri (SW). Se i nomi si
trovano in locuzione, la lettera L è aggiunta prima del simbolo @. I tratti morfo-sintattici, che
seguono il simbolo @, sono espressi in posizioni fisse:
1. la prima posizione dopo il simbolo @ è riservata per la specificazione del genere (M =
maschile, F = femminile, N = comune)
2. la seconda posizione dopo il simbolo @ è riservata per la specificazione del numero (S =
singolare, P = plurale, N = invariato)
D-115
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Etichetta
S@MS
S@MP
S@MN
S@FS
S@FP
S@FN
S@NS
S@NP
S@NN
SL@MS
SL@MP
SL@MN
SL@FS
SL@FP
SL@FN
SL@NS
SL@NP
SL@NN
SP@NN
SPL@NN
SW@MN
SW@FN
SW@NN
SWL@N
N
Descrizione
nome comune, maschile, singolare
nome comune, maschile, plurale
nome comune, maschile, invariato
nome comune, femminile, singolare
nome comune, femminile, plurale
nome comune, femminile, invariato
nome comune, comune, singolare
nome comune, comune, plurale
nome comune, comune, invariato
nome comune in locuzione, maschile, singolare
nome comune in locuzione, maschile, plurale
nome comune in locuzione, maschile, invariato
nome comune in locuzione, femminile, singolare
nome comune in locuzione, femminile, plurale
nome comune in locuzione, femminile, invariato
nome comune in locuzione, comune, singolare
nome comune in locuzione, comune, plurale
nome comune in locuzione, comune, invariato
nome proprio, comune, invariato
nome proprio in locuzione, comune, invariato
nome straniero, maschile invariato
nome straniero, femminile invariato
nome straniero, comune, invariato
nome straniero in locuzione, comune, invariato
Esempio
libro
libri
re, caffè (il/i)
casa
case
attività (la/le)
insegnante (l’/la)
insegnanti (gli/le)
sosia (il/la, i/le)
Paolo, Roma, Alpi,
weekend, software
1.2.2 Verbi (V)
I tratti morfo-sintattici relativi alla classe dei verbi sono riportati, come d’uso, dopo il simbolo
@. Per quanto riguarda la posizione in cui i tratti sono rappresentati ed i simboli usati per la
rappresentazione, dobbiamo distinguere tra forme verbali infinite e forme verbali finite.
•
Per le forme infinite, la prima posizione dopo il simbolo @ serve per specificare il modo
verbale. Valori possibili sono:
G (gerundio)
F (infinito)
Ad esempio:
•
andando
V@G
andare
V@F
Per le forme finite, sono previste quattro posizioni:
1. prima posizione: numero (S = singolare, P = plurale)
D-116
Linea 1.1 - Treebank sintattico-semantica dell'italiano
2. seconda posizione: persona (1, 2, 3)
3. terza posizione: modo del verbo (I = indicativo, C = congiuntivo, D = condizionale, M =
imperativo)
4. quarta posizione: tempo del verbo (P = presente, F = futuro, I = imperfetto, R = passato)
Ad esempio, l’etichetta V@S1II associata con una forma verbale come viaggiavamo si legge,
da destra verso sinistra, come “imperfetto indicativo prima persona singolare”.
• Per le sole forme participiali, abbiamo le seguenti convenzioni:
1. prima posizione: genere (M = maschile, N = femminile, N = comune)
2. seconda posizione: numero (S = singolare, P = plurale)
3. terza posizione: modo (P = participio)
4. quarta posizione: tempo (presente, passato, ecc.)
L’etichetta V@NPPP (amanti) si legge quindi “presente participio, plurale comune”.
Etichetta
V@G
V@GY
V@F
V@FY
V@S1IP
V@S2IP
V@S3IP
V@P1IP
V@P2IP
V@P3IP
V@S1IF
V@S2IF
V@S3IF
V@P1IF
V@P2IF
V@P3IF
V@S1II
V@S2II
V@S3II
V@P1II
V@P2II
V@P3II
V@S1IR
V@S2IR
V@S3IR
V@P1IR
Descrizione
gerundio presente
gerundio presente, con clitico
infinito presente
infinito presente, con clitico
presente indicativo, 1 persona singolare
presente indicativo, 2 persona singolare
presente indicativo, 3 persona singolare
presente indicativo, 1 persona plurale
presente indicativo, II persona plurale
presente indicativo, III persona plurale
futuro indicativo, I persona singolare
futuro indicativo, II persona singolare
futuro indicativo, III persona singolare
futuro indicativo, I persona plurale
futuro indicativo, II persona plurale
futuro indicativo, III persona plurale
imperfetto indicativo, I persona singolare
imperfetto indicativo, II persona singolare
imperfetto indicativo, III persona singolare
imperfetto indicativo, I persona plurale
imperfetto indicativo, II persona plurale
imperfetto indicativo, III persona plurale
passato indicativo, I persona singolare
passato indicativo, II persona singolare
passato indicativo, III persona singolare
passato indicativo, I persona plurale
D-117
Esempio
ballando
ballandoci
ballare
ballarci
ballo
balli
balla
balliamo
ballate
ballano
ballerò
ballerai
ballerà
balleremo
ballerete
balleranno
ballavo
ballavi
ballava
ballavamo
ballavate
ballavano
ballai
ballasti
ballò
ballammo
Linea 1.1 - Treebank sintattico-semantica dell'italiano
V@P2IR
V@P3IR
V@S1CP
V@S2CP
V@S3CP
V@P1CP
V@P2CP
V@P3CP
V@S3CPY
V@P1CPY
V@S1CI
V@S2CI
V@S3CI
V@P1CI
V@P2CI
V@P3CI
V@S1DP
V@S2DP
V@S3DP
V@P1DP
V@P2DP
V@P3DP
V@S2MP
V@S2MPY
V@P2MP
V@P2MPY
V@NPPP
V@NSPP
V@FPPR
V@FPPRY
V@MPPR
V@MPPRY
V@FSPR
V@FSPRY
V@MSPR
V@MSPRY
passato indicativo, II persona plurale
passato indicativo, III persona plurale
presente congiuntivo, I persona singolare
presente congiuntivo, II persona singolare
presente congiuntivo, II persona singolare
presente congiuntivo, I persona plurale
presente congiuntivo, II persona plurale
presente congiuntivo, III persona plurale
presente congiuntivo, III persona singolare, con
clitico
presente congiuntivo, I persona plurale, con clitico
imperfetto congiuntivo, I persona singolare
imperfetto congiuntivo, II persona singolare
imperfetto congiuntivo, II persona singolare
imperfetto congiuntivo, I persona plurale
imperfetto congiuntivo, II persona plurale
imperfetto congiuntivo, III persona plurale
presente condizionale, I persona singolare
presente condizionale, II persona singolare
presente condizionale, III persona singolare
presente condizionale, I persona plurale
presente condizionale, II persona plurale
presente condizionale, III persona plurale
presente imperativo, II persona singolare
presente imperativo, II persona singolare, con clitico
presente imperativo, II persona plurale
presente imperativo, II persona plurale, con clitico
presente participio, plurale invariato
presente participio, singolare invariato
passato participio, plurale femminile
passato participio, plurale femminile, con clitico
passato participio, plurale maschile
passato participio, plurale maschile, con clitico
passato participio, singolare femminile
passato participio, singolare maschile, con clitico
passato participio, singolare maschile
passato participio, singolare maschile, con clitico
ballaste
ballarono
balli
balli
balli
balliamo
balliate
ballino
dicasi
balliamoci, amiamoci
ballassi
ballassi
ballassi
ballassimo
ballaste
ballassero
ballerei
balleresti
ballerebbe
balleremmo
ballereste
ballerebbero
balla
ballaci
ballate
ballateci
amanti
amante
amate
amatesi
amati
amatisi
amata
amatasi
amato
amatolo
1.2.3 Aggettivi (A)
La classe morfo-sintattica degli aggettivi è contraddistinta dal simbolo A. Se gli aggettivi si
trovano in locuzione, la lettera L è aggiunta prima del simbolo @. Se si tratta di parole straniere, il
simbolo W viene aggiunto dopo il simbolo A e prima dell’eventuale simbolo L.
I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse:
1. prima posizione: genere (M = maschile, F = femminile, N = comune)
D-118
Linea 1.1 - Treebank sintattico-semantica dell'italiano
2. seconda posizione: numero (S = singolare, P = plurale, N = invariato)
3. terza posizione: grado (S = superlativo). Il grado positivo è dato come scelta di default e
pertanto non viene marcato.
Ad esempio, l’etichetta A@FSS (grandissima) si legge, da sinistra verso destra, come
“aggettivo femminile singolare, grado superlativo”.
Etichett
a
A@MS
A@MP
A@FS
A@FP
A@NN
A@NS
A@NP
A@MSS
Descrizione
Esempio
vero
veri
vera
vere
pari, dappoco, rosa
dolce
dolci
bellissimo
AP@MS
aggettivo maschile singolare
aggettivo maschile plurale
aggettivo femminile singolare
aggettivo femminile plurale
aggettivo comune invariato
aggettivo comune singolare
aggettivo comune plurale
aggettivo
maschile
singolare,
grado
superlativo
aggettivo
maschile
plurale,
grado
superlativo
aggettivo
femminile
singolare,
grado
superlativo
aggettivo
femminile
plurale,
grado
superlativo
aggettivo in locuzione maschile singolare
aggettivo in locuzione maschile plurale
aggettivo in locuzione maschile invariato
aggettivo in locuzione femminile singolare
aggettivo in locuzione femminile plurale
aggettivo in locuzione femminile invariato
aggettivo in locuzione comune singolare
aggettivo in locuzione comune plurale
aggettivo in locuzione comune invariato
aggettivo in locuzione maschile singolare,
grado superlativo
aggettivo in locuzione maschile plurale,
grado superlativo
aggettivo in locuzione femminile singolare,
grado superlativo
aggettivo in locuzione femminile plurale,
grado superlativo
aggettivo possessivo, maschile singolare
AP@MP
aggettivo possessivo, maschile plurale
AP@FS
aggettivo possessivo, femminile singolare
AP@FP
aggettivo possessivo, femminile plurale
AP@NN
AW@
AWL@
aggettivo possessivo, comune invariato
aggettivo straniero
aggettivo straniero in locuzione
A@MPS
A@FSS
A@FPS
AL@MS
AL@MP
AL@MN
AL@FS
AL@FP
AL@FN
AL@NS
AL@NP
AL@NN
AL@MSS
AL@MPS
AL@FSS
AL@FPS
D-119
bellissimi
bellissima
bellissime
mio, tuo, suo,
vostro, proprio
miei, tuoi, suoi,
vostri, propri
mia, tua, sua,
vostra, propria
mie, tue, sue,
vostre, proprie
loro, altrui
grammatica core
nostro,
nostri,
nostra,
nostre,
Linea 1.1 - Treebank sintattico-semantica dell'italiano
1.2.4 Pronomi (P)
La classe morfo-sintattica dei pronomi è contraddistinta dal simbolo P. Il tagset distingue tra
sette tipi di pronomi (D = dimostrativo, E = esclamativo, I = indefinito, P = possessivo, Q =
personale, R = relativo e T = interrogativo). L’indicazione del tipo segue il simbolo P e precede il
simbolo @.
I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse:
1. prima posizione: genere (M = maschile, F = femminile, N = comune)
2. seconda posizione: numero (S = singolare, P = plurale, N = invariato)
3. terza posizione (per i soli pronomi personali): persona (1, 2, 3).
Ad esempio, l’etichetta PQ@NP1 si legge, da sinistra verso destra, come “pronome personale,
invariato, plurale, prima persona”.
Etichetta
PD@MS
Descrizione
pronome dimostrativo, maschile singolare
PD@MP
pronome dimostrativo, maschile plurale
PD@FS
pronome dimostrativo, femminile singolare
PD@FP
pronome dimostrativo, femminile plurale
PD@NN
PD@NS
PD@NP
pronome dimostrativo, comune invariato
pronome dimostrativo, comune singolare
pronome dimostrativo, comune plurale
Esempio
questo,
quello,
stesso,
medesimo, questi, quegli, colui,
costui, …
questi, quelli, stessi, medesimi,
…
questa,
quella,
stessa,
medesima, colei, costei, …
queste,
quelle,
stesse,
medesime, …
ne, ci, vi
tale, ciò
tali, coloro, costoro
PE@MS
PE@MP
PE@FS
PE@FP
PE@NN
PE@NS
PE@NP
pronome esclamativo, maschile singolare
pronome esclamativo, maschile plurale
pronome esclamativo, femminile singolare
pronome esclamativo, femminile plurale
pronome esclamativo, comune invariato
pronome esclamativo, comune singolare
pronome esclamativo, comune plurale
quanto!
quanti!
quanta!
quante!
chi!
quale!
quali!
PI@MS
pronome indefinito, maschile singolare
PI@MP
PI@FS
pronome indefinito, maschile plurale
pronome indefinito, femminile singolare
PI@FP
PI@NN
PI@NS
PI@NP
pronome indefinito, femminile plurale
pronome indefinito, comune invariato
pronome indefinito, comune singolare
pronome indefinito, comune plurale
uno, nessuno, alcuno, ciascuno,
qualcuno, ognuno, niente, nulla,
qualcosa, altri …
alcuni
una, nessuna, alcuna, ciascuna,
qualcuna, ognuna …
alcune
altrui
tale, chiunque, chicchessia,…
tali
D-120
Linea 1.1 - Treebank sintattico-semantica dell'italiano
PP@MS
PP@MP
PP@FS
PP@FP
PP@NN
pronome possessivo, maschile singolare
pronome possessivo, maschile plurale
pronome possessivo, femminile singolare
pronome possessivo, femminile plurale
pronome possessivo, comune invariato
(il) mio, nostro, …
(i) miei, nostri
(la) mia, nostra, …
(le) mie, nostre, …
altrui, (il/la/i/le) loro
PQ@NS1
PQ@NP1
PQ@NS2
PQ@NP2
PQ@MS3
PQ@MP3
PQ@FS3
PQ@FP3
PQ@NN
PQ@NP3
PQ@NN3
pronome personale, I persona comune singolare
pronome personale, I persona comune plurale
pronome personale, II persona comune singolare
pronome personale, II persona comune plurale
pronome personale, III persona maschile singolare
pronome personale, III persona maschile plurale
pronome personale, III persona femminile singolare
pronome personale, III persona femminile plurale
pronome personale, comune invariato
pronome personale, III persona comune plurale
pronome personale, III persona comune riflessivo
(forma tonica e atona)
io, mi, me
noi, ci
tu, te, ti
voi, vi
lui, lo, egli, esso, gli
essi, li
lei, ella, essa, le, la
esse, le
ne
loro
sé, si
PR@MS
PR@MP
PR@FS
PR@FP
PR@NN
PR@NS
PR@NP
pronome relativo, maschile singolare
pronome relativo, maschile plurale
pronome relativo, femminile singolare
pronome relativo, femminile plurale
pronome relativo, comune invariato
pronome relativo, comune singolare
pronome relativo, comune plurale
quanto
quanti
quanta
quante
che, cui
(il/la) quale, chiunque, chi
(i/le) quali
PT@MS
PT@MP
PT@FS
PT@FP
PT@NN
PT@NS
PT@NP
pronome interrogativo, maschile singolare
pronome interrogativo, maschile plurale
pronome interrogativo, femminile singolare
pronome interrogativo, femminile plurale
pronome interrogativo, comune invariato
pronome interrogativo, comune singolare
pronome interrogativo, comune plurale
quanto?
quanti?
quanta?
quante?
che? chi?
quale?
quali?
1.2.5 Predeterminatori (T)
La classe morfo-sintattica dei predeterminatori è contraddistinta dal simbolo T. I tratti morfosintattici associati del genere e del numero sono espressi rispettivamente in prima e seconda
posizione dopo il simbolo @.
Etichetta
T@MS
T@MP
T@FS
T@FP
T@NP
Descrizione
predeterminatore, maschile singolare
predeterminatore, maschile plurale
predeterminatore, femminile singolare
predeterminatore, femminile plurale
predeterminatore, comune plurale
D-121
Esempio
tutto
tutti, entrambi
tutta
tutte, entrambe
ambedue, ambo
Linea 1.1 - Treebank sintattico-semantica dell'italiano
1.2.6 Determinatori (D)
La classe morfo-sintattica dei determinatori è contraddistinta dal simbolo D. Il tagset distingue
tra cinque tipi di determinatori (D = dimostrativo, E = esclamativo, I = indefinito, R = relativo e T =
interrogativo). L’indicazione del tipo segue il simbolo D e precede il simbolo @.
I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse:
1. prima posizione: genere (M = maschile, F = femminile, N = comune)
2. seconda posizione: numero (S = singolare, P = plurale, N = invariato)
Ad esempio, l’etichetta DD@MS associata con la forma questo si legge, da sinistra verso
destra, come “determinatore dimostrativo, maschile singolare”.
Etichetta
DD@MS
DD@MP
DD@FS
DD@FP
DD@NS
DD@NP
Descrizione
determinatore dimostrativo, maschile singolare
determinatore dimostrativo, maschile plurale
determinatore dimostrativo, femminile singolare
determinatore dimostrativo, femminile plurale
determinatore dimostrativo, comune singolare
determinatore dimostrativo, comune plurale
Esempio
questo, codesto, quello, quel
questi, codesti, quelli, quei
questa, codesta, quella
queste, codeste, quelle
tale
tali
DE@MS
DE@MP
DE@FS
DE@FP
DE@NN
DE@NS
DE@NP
determinatore esclamativo, maschile singolare
determinatore esclamativo, maschile plurale
determinatore esclamativo, femminile singolare
determinatore esclamativo, femminile plurale
determinatore esclamativo, comune invariato
determinatore esclamativo, comune singolare
determinatore esclamativo, comune plurale
quanto!
quanti!
quanta!
quante!
che!
quale!
quali!
DI@MS
determinatore indefinito, maschile singolare
DI@MP
DI@FS
determinatore indefinito, maschile plurale
determinatore indefinito, femminile singolare
DI@FP
DI@NS
DI@NN
determinatore indefinito, femminile plurale
determinatore indefinito, comune singolare
determinatore indefinito, comune invariato
alcuno, alcun, nessuno, nessun,
certo, poco, molto, …
alcuni, certi, pochi, molti, …
alcuna, nessuna, certa, poca,
molta, …
alcune, certe, poche, molte, …
ogni, qualsiasi, qualche, …
niente
DR@NS
DR@NP
DR@MS
determinatore relativo, comune singolare
determinatore relativo, comune plurale
determinatore relativo, maschile singolare
quale, qualunque
quali
quanto
DT@MS
DT@MP
determinatore interrogativo, maschile singolare
determinatore interrogativo, maschile plurale
quanto?
quanti?
D-122
Linea 1.1 - Treebank sintattico-semantica dell'italiano
DT@FS
DT@FP
DT@NN
DT@NS
DT@NP
determinatore interrogativo, femminile singolare
determinatore interrogativo, femminile plurale
determinatore interrogativo, comune invariato
determinatore interrogativo, comune singolare
determinatore interrogativo, comune plurale
quanta?
quante?
che?
quale?
quali?
1.2.7 Articoli (R)
La classe morfo-sintattica degli articoli è contraddistinta dal simbolo R. La distinzione principale
è tra articoli determinativi o definiti (RD) e articoli indeterminativi o indefiniti (RI).
I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse:
1. prima posizione: genere (M = maschile, F = femminile, N = comune)
2. seconda posizione: numero (S = singolare, P = plurale, N = invariato)
Ad esempio, l’etichetta RI@MS
indeterminativo, maschile singolare”.
Etichetta
RD@MS
RD@MP
RD@FS
RD@FP
RD@NS
RI@FS
RI@MS
si legge, da sinistra verso destra, come “articolo
Descrizione
articolo determinativo, maschile singolare
articolo determinativo, maschile plurale
articolo determinativo, femminile singolare
articolo determinativo, femminile plurale
articolo determinativo, comune singolare
articolo indeterminativo, femminile singolare
articolo indeterminativo, maschile singolare
Esempio
il, lo
gli, i
la
le
l’
una, un’
un, uno
1.2.8 Avverbi (B)
Il tagset distingue fra avverbi in locuzione (BL) e avverbi non in locuzione (B).
Etichetta
B@
BL@
Descrizione
avverbio
avverbio in locuzione
Esempio
bene, ci, vi, ne
di qua, di sopra, …
1.2.9 Preposizioni (E)
La classe morfo-sintattica delle preposizioni è contraddistinta dal simbolo E. La distinzione
principale è tra preposizioni semplici e preposizioni composte; queste ultime sono ulteriormente
specificate per i tratti morfo-sintattici rilevanti, ovvero, in posizioni fisse:
1. prima posizione: genere (M = maschile, F = femminile, N = comune)
2. seconda posizione: numero (S = singolare, P = plurale, N = invariato)
D-123
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Un’ulteriore distinzione è introdotta tra preposizioni in locuzione (EL) e preposizioni non in
locuzione (E).
L’etichetta E@MS ad esempio, si legge da sinistra verso destra come “preposizione articolata,
maschile singolare”.
Etichetta
E@
Descrizione
preposizione semplice
E@MS
E@MP
E@FS
E@FP
E@NS
EL@
EL@MS
EL@MP
EL@FS
EL@FP
EL@NS
preposizione articolata, maschile singolare
preposizione articolata, maschile plurale
preposizione articolata, femminile singolare
preposizione articolata, femminile plurale
preposizione articolata, comune singolare
preposizione semplice, in locuzione
preposizione articolata in locuz., maschile singolare
preposizione articolata in locuz., maschile plurale
preposizione articolata in locuz., femminile singolare
preposizione articolata in locuz., femminile plurale
preposizione articolata in locuz., comune singolare
Esempio
di, a, da, in, con, su, per, tra,
fra, …
del, dello, al, allo,…
dei, degli, ai, agli, …
della, alla, sulla, …
delle, alle, sulle, …
dell’, all’, sull’, dall’, …
1.2.10 Congiunzioni (C)
La classe morfo-sintattica delle congiunzioni è contraddistinta dal simbolo C. Il tagset distingue
tra congiunzioni coordinative (CC) e congiunzioni subordinative (CS). Il simbolo L è aggiunto
prima del simbolo @ se la congiunzione si trova in locuzione.
Etichetta
CC@
CS@
CCL@
CSL@
Descrizione
congiunzione coordinativa
congiunzione subordinativa
congiunzione coordinativa in locuzione
congiunzione subordinativa in locuzione
Esempio
e, ma, o, …
perché, siccome, sebbene, …
1.2.11 Numerali (N)
La classe morfo-sintattica dei numerali è contraddistinta dal simbolo N. Il tagset distingue tra
numerali cardinali (N) e numerali ordinali (NO). I tratti morfo-sintattici rilevanti sono specificati
dopo il simbolo @, secondo le convenzioni generali.
Etichetta
N@
N@MS
N@FS
NO@MS
NO@MP
NO@FS
NO@FP
Descrizione
numerale cardinale
numerale cardinale, maschile singolare
numerale cardinale, femminile singolare
numerale ordinale, maschile singolare
numerale ordinale, maschile plurale
numerale ordinale, femminile singolare
numerale ordinale, femminile plurale
D-124
Esempio
due, tre, quattro, …
uno
una
primo, secondo, …
primi, secondi, …
prima, seconda, …
prime, seconde, …
Linea 1.1 - Treebank sintattico-semantica dell'italiano
1.2.12 Interiezioni (I)
Il tagset permette di distinguere le interiezioni in locuzione (IL) da quelle non in locuzione (I).
Etichetta
I@
IL@
Descrizione
Interiezione
interiezione in locuzione
Esempio
oh!, eccome, già!
1.2.13 Punteggiatura (@@)
I segni di punteggiatura sono etichettati mediante il doppio simbolo @@. Non sono previste
categorie più specifiche né distinzioni tra punteggiatura “forte” (. ; : ! ?) e “debole” (,).
1.2.14 Abbreviazioni (SA)
Le abbreviazioni (ecc., pagg., fig., vol., …) ricevono l’etichetta SA.
1.2.15 Classe Residua (X)
Gli elementi che non possono essere classificati in una delle diverse classi ricevono l’etichetta
X@. Ad esempio, le formule, le sequenze alfanumeriche (41esima).
1.3
Legenda delle abbreviazioni
Categorie morfo-sintattiche:
@@: Punteggiatura
A: Aggettivi
A: Articoli
B: Avverbi
C: Congiunzioni
D: Determinatori
E: Preposizioni
I: Interiezioni
N: Numerali
P: Pronomi
S: Nomi
SA: Abbreviazioni
T: Predeterminatori
V: Verbi
X: Classe Residua
D-125
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Altri simboli che precedono il simbolo @:
C (associato alla categoria C): coordinativa
C (associato alla categoria C): subordinativa
D (associato alla categoria P o D): dimostrativo
D (associato alla categoria R): determinativo
E (associato alla categoria P o D): esclamativo
I (associato alla categoria P o D): indefinito
I (associato alla categoria R): indeterminativo
L: in locuzione
O (associato alla categoria N): ordinale
P (associato alla categoria A o P): possessivo
P (associato alla categoria N): proprio
Q (associato alla categoria P): personale
R (associato alla categoria P o D): relativo
T (associato alla categoria P o D): interrogativo
W: straniero
Simboli che seguono il simbolo @
Tratti morfo-sintattici:
genere:
F: femminile
M: maschile
numero:
P: plurale
S: singolare
persona:
1: prima
2: seconda
3: terza
modo del verbo:
C: congiuntivo
D: condizionale
F: infinito
G: gerundio
I: indicativo
M: imperativo
P: participio
tempo del verbo:
D-126
Linea 1.1 - Treebank sintattico-semantica dell'italiano
F: futuro
I: imperfetto
P: presente
R: passato
Altri:
S: superlativo
Y: forma con clitico
D-127
Linea 1.1 - Treebank sintattico-semantica dell'italiano
D-128
Linea 1.1 - Treebank sintattico-semantica dell'italiano
APPENDICE 2: Studio comparativo di pratiche di annotazione
sintattica a costituenti: SI-TAL e gli altri
INTRODUZIONE
Benché le attività di ricerca nel campo dell’annotazione sintattica
in costituenti e funzionale siano svariate (come mostrato dal
recente Workshop ATALA sui Treebank, Parigi, Université de Paris
VII), noi prenderemo in esame solamente tre casi:
- il Susanne Corpus (SC)
- il Penn Treebank (PT)
- la Treebank dello spagnolo dell’Università Autonoma di Madrid
(TSAM)
L’importanza
di creare corpora taggati sintatticamente
viene
definita egregiamente dagli estensori del progetto DIET nella parte
in cui si discute del Corpus Profiling che riportiamo qui in basso
in quanto tocca una serie di questioni altamente rilevanti alla
presentazione successiva.
“The identification of the typical and salient properties of the
texts is what we refer to as corpus profiling. The tools used to
identify and classify the corpus characteristics will rely on
shallow state-of-the-art corpus processing techniques. These include
morphological analysis, part-of-speech tagging, standard statistical
measurements (which can be calculated over the entire corpus or only
for given localities defined according to a limited set
of
parameters) and general pattern matching techniques (which are
basically used for the extraction of linguistically relevant units).
The quality of the result will depend on the success of the shallow
processing stage. Accuracy will be much improved if the corpus is
already annotated with compatible part-of-speech tags, either by
hand or by a tagger trained to the specific corpus.
...
The identification of syntactic information is perhaps the most
challenging task of corpus profiling (it presupposes that the
document is tagged with (at least) part-of-speech). Though sequences
of POS tags are indicative of syntactic constructions, only a subset
can be identified with a reasonable degree of reliability. The
frequency and distribution of closed class items can serve as very
simple, but useful indicators of the occurrence of syntactic
constructions.
This
however, only
provides
coarse
grained
information. For example, we can determine how many times the word
‘and’ is used in a text, but not whether the coordination is between
nouns, noun phrases, verbs, etc. Without any fu
rther specification, a user would thus have to extract all test
items classified under that phenomenon, even if the major part of
them might not be representative for the corpus in question. Better
results can be obtained by applying a more refined procedure, namely
through the systematic extraction of patterns of sequences of partof-speech tags. The specification of a sequence such as [NP coordconj
NP]
reveals for example whether the
corpus
contains
coordination of nouns. While this method yields correct results for
a sentence such as (1), it is unsatisfactory for (2), although both
examples contain the same pattern ([NP coord-conj NP]: Sally and
Pieter).
(1) Harry meets [Sally and Pieter].
(2) [Harry meets Sally] and [Pieter meets Jon].
D-129
Linea 1.1 - Treebank sintattico-semantica dell'italiano
This situation is due to the different bracketing of the two
sentences: (1) shows the correctly extracted coordination of nouns,
but (2) contains a coordination of sentences. ...
It has to be kept in mind that to obtain a high degree of precision
requires a corpus with correctly disambiguated full syntactic
parses.”
Quindi
l’importanza
estrema
della
correttezza
dell’analisi
sintattica si riflette su tutti i successivi possibili usi. Abbiamo
anche riportato il commento relativo alla coordinazione, struttura
che è ben nota per la sua difficoltà di annotazione e che quindi
richiede particolare attenzione.
Abbiamo preso le mosse da DIET che in realtà è una shell vuota, solo
per introdurre il problema costituito dalla complessità del compito:
ulteriori
prove sono indirettamente addotte dai commenti
ai
precedenti esempi di annotazione sintattica che costituiscono lo
stato dell’arte nel nostro campo e che commentiamo qui di seguito.
Nella scelta dei corpora annotati da commentare, la Treebank che più
si avvicina alla nostra è quella dello spagnolo che si fonda in
parte sulle specifiche della Penn Treebank di cui segue le linee
generali, fatte salve una serie di variazioni motivate dalle
caratteristiche dello spagnolo in quanto lingua
romanza.
La
decisione di privilegiare di commentare questa treebank è infatti
dovuta essenzialmente al fatto che essa stabilisce dei criteri di
riferimento per le lingue romanze e quindi per la lingua italiana,
distaccandosi in questo dalla Penn Treebank che ha utilizzato un
impianto
teorico più lontano dal nostro, e lo ha applicato
all’inglese, e quindi solo in parte generalizzabili
alle lingue romanze.
Allo stesso tempo, la TSAM utilizza il nodo di VP per incapsulare il
verbo flesso e i suoi complementi e/o aggiunti come fa la PT ma non
il SC e nemmeno noi: in questo quindi si discosta dal nostro
impianto teorico che quindi è vicino al SC.
Di comune con il nostri impianto e di diverso dal SC è invece la
presenza delle categorie vuote, non solo per indicare elementi
lessicalmente inespressi, importanti per l’annotazione funzionale,
ma anche per soddisfare criteri legati al rispetto di fondamenti
teorici di tipo configurazionale che commenteremo estesamente più in
basso.
La annotazione del Susanne Corpus si ripropone come sistema di
tagging fondato sulla lingua inglese e quindi come il Penn Treebank
inadatto a rappresentare un esempio da seguire in toto, proprio per
la specificità della lingua.
Ovviamente, nel decidere un sistema di annotazione sintattico è
essenziale mantenersi il più generale possibile, perlomeno in tutti
quei fenomeni linguistici che si presentano superficialmente nello
stesso modo: questo permette di comparare i risultati e se possibile
di riutilizzare il lavoro svolto per un’altra lingua.
Nell’analisi delle caratteristiche dei tre corpora abbiamo rilevato
in generale maggiore affinità con lo schema introdotto dal TSAM e
dal SC anche se ce ne allontaniamo per vari elementi che commentiamo
più in basso nella sezione dedicata alla discussione dettagliata del
suo sistema di tagging.
Per
quanto
riguarda il PT, essendo legato al concetto
di
privilegiare l’aspetto configurazionale rispetto a quello funzionale
della
rappresentazione
sintattica
ne
condividiamo
meno
caratteristiche.
Comunque sia, per tutti e tre gli esempi che discuteremo vale la
critica che riguarda l’inserzione delle categorie vuote all’interno
della rappresentazione per indicare la posizione “logica” di un
costituente che è stato spostato o che manca. Dal momento che al
D-130
Linea 1.1 - Treebank sintattico-semantica dell'italiano
tagging sintattico in costituenti viene poi associato il tagging
funzionale in funzioni grammaticali, non si capisce quale utilità
possa costituire il fatto di avere l’indicazione degli elementi
vuoti. In particolare ci pare molto criticabile l’approccio seguito
dai creatori del SC che alterano in questo molto la sequenza
tipografica verticalizzata del testo. Nel caso della PT, che
inserisce elementi vuoti nella struttura in costituenti il risultato
è forse meno criticabile anche se non se ne capisce l’utilità vista
la presenza della marche funzionali.
D’altro canto, l’inserzione di indici di controllo sintattico e
delle marche di costituenza non sono di per se stessi sufficienti a
garantire
l’interpretazione
semantica.
Altri
commenti
più
dettagliati vengono riportati più in basso.
IL SISTEMA DI TAGGING DEL SUSANNE CORPUS
Includiamo il commento del curatore G. Sampson come riportato nella
introduzione:
“The SUSANNE Corpus itself comprises an approximately 130,000-word
subset of the Brown Corpus of American English, annotated in
accordance with the
SUSANNE scheme. The original motives for producing this database
included that of providing better statistics for probabilistic
parsing; but in this respect Project SUSANNE was overtaken after its
inception
by projects (notably Mitchell Marcus’s Pennsylvania
Treebank project, cf. Marcus et al. (1993)) which have used quasiindustrial methods to generate far
larger bodies of grammatically-analysed material.
However, the
SUSANNE scheme may be unparallelled in the extent to which its
categories
have
been
refined and tested
through
detailed
consideration of the almost endless small quirks of the texts to
which they have been applied, and in the degree of precision to
which the resulting guidelines for using the categories have been
documented
-- thus defining analytic standards which
permit
annotation of future material to be extremely self-consistent.”
Come accennato più sopra, si ha l’impressione che il creato del SC
sia
partito
più
dalla necessità di adattare
gli
aspetti
configurazionali alla rappresentazione in funzioni grammaticali che
non il contrario come avviene per il PT: a questo scopo, ha
eliminato il nodo di VP e ha quindi sollevato il verbo flesso a
livello di frase, come avviene
anche nella nostra rappresentazione.
Ha invece mantenuto tutte le categorie vuote, anche quelle che non
svolgono alcun ruolo all’interno di una rappresentazione funzionale.
Nel commento del curatore, che riportiamo qui di seguito:
“Indices are assigned to pairs of nodes to show referential identity
between items which are in certain defined grammatical relationships
to one another. For instance, a phrase raised out of a lower clause
to act as object in a higher clause, as in “John expected Mary to
admit it”, will be assigned an index identical to that assigned to
the ghost element which marks the logical position of the item in
the lower clause.
The (artificial) example quoted would
be
represented as:
[Nns:s John] expected [Nns:O999 Mary] [Ti:o [s999 GHOST] to admit
[Ni:o it]]
-- where the index 999 shows that the ghost
subject (symbolized s) of the “admit” clause is
“Mary” which acts as surface object (O) of the
the
logical object (o) of the “expected”
D-131
acting as logical
coreferential with
“expected” clause;
clause being
the
Linea 1.1 - Treebank sintattico-semantica dell'italiano
infinitival subordinate clause (Ti).
In some cases, movement rules displace a constituent into a tagma
within which it has no grammatical role (for instance, an adverb
which is logically a clause constituent may interrupt the verb group
- sequence of auxiliary verbs and main verb -- of the clause):
in
such cases the functiontag is G (“guest”). Constituents which do
not logically belong below the node which immediately dominates them
in surface structure are always given G functiontags and indices
linking them to their logical position. With that exception (and
with one other exception not discussed here relating to coordination), functiontagging is used only for immediate constituents
of clauses.”
In
questo modo ha introdotto elementi vuoti nella
sequenza
verticalizzata del testo tipografico al solo scopo di recuperare
strutturalmente a livello configurazionale la posizione di elementi
dislocati.
Il problema principale del SC è costituito in primo luogo dalla
necessità primaria di adattare tutti gli schemi di annotazione
superiore ai POS tags, al testo tipografico di cui viene conservata
la immagine verticalizzata, adeguatamente indicizzato e taggato. Il
testo tipografico verticalizzato e taggato viene poi integrato con
il proprio lemma
nella parentesizzazione sintattica. Il risultato che si può vedere
ampiamente negli esempi riportati in basso è quello di una eccessiva
quantità di informazione che non facilita la comprensione visiva
dell’analisi strutturale. Ovviamente se si agisce con un qualsiasi
Editor che sia in grado di bilanciare le parentesi si ottiene una
visione più accettabile, anche se sempre di difficile comprensione.
Lo scopo del creatore però era quello di mettere a disposizione un
corpus annotato per l’utilizzo da parte di programmi adatti ad
estrarre l’informazione mediante procedure automatiche piuttosto che
quello di servire all’indagine visiva diretta del linguista naive.
In questo senso, però il lavoro non risulta essere ben organizzato,
in quanto la necessità di restare fedeli al testo tipografico
seppure nella sua versione verticalizzata viene poi vanificata
dall’inserzione degli elementi vuoti che il curatore definisce in
questo modo:
“The tag YG appears in the wordtag field to represent a “ghost” -the logical position of a constituent which has been shifted
elsewhere, or deleted, in the surface grammatical structure.”
La rappresentazione strutturale comunque soffre di una serie nutrita
di problemi, alcuni dei quali sono i seguenti:
- Le marche di costituenza e di sottocostituenza sono riportate sia
all’inizio della parentesizzazione che alla fine contribuendo ad
appesantire piuttosto che a facilitare la comprensione
della
rappresentazione. Nel caso in cui nel costituente ci sia un solo
elemento, nella parentesizzazione appaiono solo i tags separati da
un punto (dot):
eyes [Np:S.Np:S] = Nome plurale Soggetto
- Come nel caso appena commentato, Il costituente viene marcato dopo
il suo inizio lessicale, quindi lasciando fuori sistematicamente una
parola dalla parentesizzazione - che potrebbe essere la testa: Qui
l’articolo “The” è tenuto fuori dalla struttura frasale, non solo da
quella di gruppo nominale soggetto superficiale e oggetto profondo:
A01:0010b
AT
The
the
[O[S[Nns:s.
A01:0010c
NP1s
Fulton Fulton [Nns.
In questo caso è la preposizione “of”
struttura del gruppo preposizionale:
D-132
a
restare
fuori
dalla
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0290n
A01:0300a
-
IO
AT
of
the
of
the
[Po.
[Ns.
La coordinazione non viene marcata se non lasciando in situ
l’elemento coordinante ed assegnandogli una etichetta adeguata. Lo
stesso discorso vale per le strutture parentetiche, alle quali non
viene
data una sistemazione strutturale adeguata, ma vengono
lasciate in situ e quindi integrate nella frase come dei complementi
o degli aggiunti verbali.
A questo scopo includiamo un frammento di uno degli esempi riportati
più in basso completamente: in questa frase il verbo “said”
contenuto nella frase relativa introdotta da “which” ha come
complemento una frase che è priva di complementatore ma viene
introdotta da tre elementi vuoti marcati con Y che abbiamo segnato
con due * in inizio riga. Il problema è il verbo “follow” coordinato
con “operated” ma è contenuto in una struttura frasale separata e
privo di legami con il pronome relativo soggetto che nel caso di
“operated” viene interpretato come Oggetto, essendo il verbo al
passivo, ma nel caso di “follow” dovrebbe essere indicato come
Soggetto.
16.
The grand jury commented on a number of other topics, among them the
Atlanta and Fulton County purchasing departments, which it said are
well operated and follow generally accepted practices which inure to
the best interest of both governments.
A01:0190b
A01:0190c
A01:0190d
**A01:0190e
**A01:0190f
**A01:0190g
A01:0190h
A01:0190i
A01:0190j
A01:0190k
***A01:0190m
A01:0190n
[Np:o117[Tn[R:h.R:h]
A01:0200a
A01:0200b
-
DDQr
PPH1
VVDv
YIL
YG
YG
VBR
RR
VVNv
CC
VV0v
VVNv
NN2
which
which
[Fr[Dq:G113.Dq:G113]
it
it
[Ni:s.Ni:s]
said
say [Vd.Vd]
<ldquo> .
[Fn:o[o113.o113]
[h115.h115]
+are
be
[Vap.
well
well [R:G115.R:G115]
operated
operate .Vap]
and
and [Fn+.
follow follow [V.V]
RR
generally
generally
accepted
practices
accept [Vn.Vn]Tn]
practice
.
Riportiamo qui di seguito tutti i tags utilizzati nel Susanne
Corpus, ad esclusione dei POS tags. Anche se non sono commentati
nella relazione, riportiamo anche i Function Tags per facilitare la
comprensione degli esempi. Gli esempi che seguono i tags, sono
relativi ai tag di struttura in costituenti tratti da A01, A02, A03,
G05. Ovviamente tutti i testi e i tags sono tratti direttamente dal
documento rilasciato da G.Sampson che citiamo qui in basso, senza
apportare alcuna modifica.
THE SUSANNE CORPUS
Release 3, 1994.04.04
Geoffrey Sampson
School of Cognitive & Computing Sciences University of Sussex
Falmer, Brighton BN1 9QH, England [email protected]
CONSTITUENT STRUCTURE TAGS
D-133
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Clausetags
S
Ss
Fa
Fn
Fr
Ff
Fc
Tg
Tn
Ti
Tf
Tb
Tq
W
A
Z
L
main clause
embedded quoting clause
adverbial clause
nominal clause
relative clause
fused relative
comparative clause
present participle clause
past participle clause
infinitival clause
“for-to” clause
bare nonfinite clause
infinitival relative clause
“with” clause
special “as” clause
reduced (“whiz-deleted”) relative
miscellaneous verbless clause
Phrasetags
V
N
J
R
P
D
M
G
verb group
noun phrase
adjective phrase
adverb phrase
prepositional phrase
determiner phrase
numeral phrase
genitive phrase
The various phrase categories take lower-case subcategory symbols
which can be combined in any meaningful combination (e.g. the verb
group “must have been noticed” would be formtagged “Vcfp”).
The
phrase subcategories are:
Vo
operator section of verb group, when separated from
remainder
of V e.g. by subject-auxiliary inversion
Vr
remainder of V from which Vo has been separated
Vm
V beginning with “am”
Va
V beginning with “are”
Vs
V beginning with “was”
Vz
V beginning with other 3rd-singular verb
Vw
V beginning with “were”
Vj
V beginning with “be”
Vd
V beginning with past tense
Vi
infinitival V
Vg
V beginning with present participle
Vn
V beginning with past participle
Vc
V beginning with modal
Vk
V containing emphatic DO
Ve
negative V
Vf
perfective V
Vu
progressive V
Vp
passive V
Vb
V ending with BE
Vx
V lacking main verb
Vt
catenative V
Nq
“wh-” N
D-134
Linea 1.1 - Treebank sintattico-semantica dell'italiano
Nv
Ne
Ny
Ni
Nj
Nn
Nu
Na
No
Ns
Np
“wh...ever” N
“I/me” as whole or head
“you” as whole or head
“it” as whole or head
adjectival head
proper name
unit of measurement as head
marked as subject
marked as nonsubject
marked as singular
marked as plural
Jq
Jv
Jx
Jr
Jh
“wh-” J
“wh...ever” J
measured absolute J
measured comparative J
“heavy” (postmodified) J
Rq
Rv
Rx
Rr
Rs
Rw
“wh-” R
“wh...ever” R
measured absolute R
measured comparative R
adverb conducive to asyndeton
quasi-nominal adverb
Po
Pb
Pq
Pv
“of” phrase
“by” phrase
“wh-” P
“wh...ever” P
Dq
Dv
Ds
Dp
“wh-” D
“wh...ever” D
marked as singular
marked as plural
Ms
M headed by “one”
Gq
Gv
“wh-” G
“wh...ever” G
NON-ALPHANUMERIC FORMTAG SUFFIXES
?
*
%
!
“
interrogative clause
imperative clause
subjunctive clause
exclamatory clause or other item
vocative item
+
@
&
within a
subordinate conjunct introduced by conjunction
subordinate conjunct not introduced by conjunction
appositional element
co-ordinate structure acting as first conjunct
higher co-ordination (marked in certain cases only)
WT&
WT+
introduced
WT-
co-ordination of words
conjunct within wordlevel co-ordination
by a conjunction
conjunct within
wordlevel
D-135
that
co-ordination
is
not
Linea 1.1 - Treebank sintattico-semantica dell'italiano
introduced by a
conjunction
FUNCTION TAGS
Complement Functiontags
s
o
i
u
e
j
a
S
O
G
logical subject
logical direct object
indirect object
prepositional object
predicate complement of subject
predicate complement of object
agent of passive
surface (and not logical) subject
surface (and not logical) direct object
“guest” having no grammatical role within its tagma
Adjunct Functiontags
p
q
t
h
m
c
r
w
k
b
place
direction
time
manner or degree
modality
contingency
respect
comitative
benefactive
absolute
Other Functiontags
n
x
z
participle of phrasal verb
relative clause having higher clause as antecedent
complement of catenative
1.
The Fulton County Grand Jury said Friday an investigation of Atlanta
recent primary election produced no evidence that any irregularities
took place.
es. di S, Fn
A01:0010a
A01:0010b
A01:0010c
A01:0010d
A01:0010e
A01:0010f
A01:0010g
A01:0010h
A01:0010i
A01:0010j
A01:0020a
A01:0020b
A01:0020c
A01:0020d
A01:0020e
A01:0020f
A01:0020g
-
YB
AT
NP1s
NNL1cb
JJ
NN1c
VVDv
NPD1
AT1
NN1n
IO
NP1t
GG
JJ
JJ
NN1n
VVDv
<minbrk>
- [Oh.Oh]
The
the [O[S[Nns:s.
Fulton Fulton [Nns.
County county .Nns]
Grand
grand
.
Jury
jury .Nns:s]
said
say [Vd.Vd]
Friday Friday [Nns:t.Nns:t]
an
an
[Fn:o[Ns:s.
investigation
investigation .
of
of
[Po.
Atlanta Atlanta [Ns[G[Nns.Nns]
+<apos>s
- .G]
recent recent .
primary primary .
election
election
.Ns]Po]Ns:s]
produced
produce [Vd.Vd]
D-136
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0020h
YIL
A01:0020i
ATn
A01:0020j
NN1u
A01:0020k
YIR
A01:0020m
CST
A01:0030a
DDy
A01:0030b
NN2
.Np:s]
A01:0030c
VVDv
A01:0030d
[Ns:o.Ns:o]Fn]Ns:o]Fn:o]S]
A01:0030e
YF
<ldquo> .
+no
no
[Ns:o.
evidence
evidence
+<rdquo>
- .
that
that [Fn.
any
any [Np:s.
irregularities
took
take [Vd.Vd]
NNL1c
place
+.
-
.
irregularity
place
.O]
2.
The September-October term jury had been charged by Fulton Superior
Court
Judge Durwood Pye to investigate reports of
possible
irregularities in the hard fought primary which was won by Mayor nominate Ivan Allen Jr.
es. di S, Fr, Tn, P
A01:0070a
A01:0070b
A01:0070c
A01:0070d
A01:0070e
A01:0070f
A01:0070g
A01:0070h
A01:0070i
A01:0070j
A01:0070k
A01:0070m
A01:0080a
A01:0080b
A01:0080c
A01:0080d
A01:0080e
A01:0080f
A01:0080g
A01:0080h
A01:0080i
A01:0080j
A01:0080k
A01:0090a
A01:0090b
A01:0090c
A01:0090d
A01:0090e
A01:0090f
A01:0090g
A01:0090h
A01:0090i
A01:0090j
A01:0090k
A01:0090m
A01:0090n
A01:0100a
A01:0100b
A01:0100c
A01:0100d
A01:0100e
-
YB
AT
NPM1
YH
NPM1
NNT1c
NN1c
VHD
VBN
VVNv
IIb
NP1s
JJ
NNJ1n
NNS1c
NP1m
NP1s
YG
TO
VV0t
NN2
IO
JJ
YIL
NN2
YIR
II
AT
RR
YH
VVNv
NN1c
DDQr
VBDZ
VVNv
IIb
NNS1c
YH
RAj
NP1m
NP1s
<minbrk>
- [Oh.Oh]
The
the [O[S[Ns:S105.
September
September [Ns[Nns.
+<hyphen>
- .
+October
October
.Nns]
term
term .Ns]
jury
jury .Ns:S105]
had
have [Vdfp.
been
be
.
charged charge .Vdfp]
by
by
[Pb:a.
Fulton Fulton [Nns[Nns.
Superior
superior
.
Court
court
.Nns]
Judge
judge
.
Durwood Durwood .
Pye
Pye .Nns]Pb:a]
[Ti:o[s105.s105]
to
to
[Vi.
investigate investigate
.Vi]
reports report [Np:o.
of
of
[Po.
possible
possible
[Np.
<ldquo> .
+irregularities irregularity
.
+<rdquo>
- .
in
in
[P.
the
the [Ns:107.
hard
hard [Tn[R:h.R:h]
+<hyphen>
- .
+fought fight
[Vn.Vn]Tn]
primary primary .
which
which
[Fr[Dq:S107.Dq:S107]
was
be
[Vsp.
won
win .Vsp]
by
by
[Pb:a.
Mayor
mayor
[Nns[Ns.
+<hyphen>
- .
+nominate
nominate
.Ns]
Ivan
Ivan .
Allen
Allen
.
D-137
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0100f
A
NNSA
.Nns]Pb:a]Fr]Ns:107]P]Np]Po]Np:o]Ti:o]S]
A01:0100g
YF
+.
-
Jr
-
.O]
3.
It urged that the next Legislature provide enabling funds and re-set
the effective date so that an orderly implementation of the law may
be effected.
es. di S, Fc
A01:0280a
A01:0280b
A01:0280c
A01:0280d
A01:0280e
A01:0280f
A01:0280g
A01:0280h
A01:0280i
A01:0280j
A01:0280k
A01:0290a
A01:0290b
A01:0290c
A01:0290d
A01:0290e
A01:0290f
A01:0290g
A01:0290h
A01:0290i
A01:0290j
A01:0290k
A01:0290m
A01:0290n
A01:0300a
A01:0300b
A01:0300c
A01:0300d
A01:0300e
.Vcp]Fc]R:c]Fn%+]
A01:0300f
A01:0300g
-
YB
PPH1
VVDt
CST
AT
MDt
NNJ1c
YIL
VV0v
JJ
NN2
CC
FB
YH
VV0v
AT
JJ
NN1n
RRz
CST
AT1
JJ
NN1c
IO
AT
NN1n
VMo
VB0
<minbrk>
- [Oh.Oh]
It
it
[O[S[Ni:s.Ni:s]
urged
urge [Vd.Vd]
that
that [Fn%:o.
the
the [Ns:s.
next
next .
Legislature legislature
.Ns:s]
<ldquo> .
+provide
provide [V.V]
enabling
enabling
[Np:o.
funds
fund .Np:o]
and
and [Fn%+.
re
re<hyphen>
[V.
+<hyphen>
- .
+set
set .V]
the
the [Ns:o.
effective
effective
.
date
date .Ns:o]
so
so
[R:c.
that
that [Fc.
an
an
[Ns:S.
orderly orderly .
implementation implementation .
of
of
[Po.
the
the [Ns.
law
law .Ns]Po]Ns:S]
may
may [Vcp.
be
be
.
VVNt
effected
effect
YIR
YF
+<rdquo>
+.
-
-
- .Fn%:o]S]
.O]
4.
Only a relative handful of such reports was to be received - the
jury said - considering the widespread interest in the election, the
number of voters and the size of this city
es. di Ss, N
A01:0100h
A01:0100i
A01:0100j
A01:0100k
A01:0100m
A01:0100n
A01:0110a
A01:0110b
A01:0110c
A01:0110d
A01:0110e
-
YB
YIL
RRx
AT1
JJ
NN1c
IO
DAz
NN2
VBDZ
VVNv
<minbrk>
- [Oh.Oh]
<ldquo> [O[Q:G109[S.
+Only
only [Ns:S.
a
a
.
relative
relative
.
handful handful .
of
of
[Po.
such
such [Np.
reports report .Np]Po]Ns:S]
was
be
[Vsp.
received
receive
.Vsp]
D-138
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0110f
A01:0110g
A01:0110h
A01:0110i
A01:0110j
A01:0110k
A01:0110m
A01:0110n
A01:0110p
A01:0110q
A01:0120a
A01:0120b
A01:0120c
A01:0120d
A01:0120e
A01:0120f
A01:0120g
A01:0120h
A01:0120i
A01:0120j
A01:0120k
A01:0120m
A01:0120n
A01:0130a
A01:0130b
A01:0130c
A01:0130d
A01:0130e
-
YIR
YC
AT
NN1c
VVDv
YG
YC
YIL
ICS
AT
JJ
NN1n
II
AT
NN1n
YC
AT
NN1c
IO
NN2
CC
AT
NN1n
IO
DD1i
NNL1c
YIR
YF
+<rdquo>
- .
+,
.
the
the [Ss[Ns:s.
jury
jury .Ns:s]
said
say [Vd.Vd]
[o109.o109]Ss]
+,
.
<ldquo> .
+considering considering
[P:c.
the
the [N.
widespread
widespread .
interest
interest
.
in
in
[P.
the
the [Ns.
election
election
.Ns]P]
+,
.
the
the [Ns-.
number number .
of
of
[Po.
voters voter
.Po]Ns-]
and
and [Ns+.
the
the .
size
size .
of
of
[Po.
this
this [Ns.
city
city .Ns]Po]Ns+]N]P:c]
+<rdquo>
- .S]Q:G109]
+.
.O]
5.
Regarding Atlanta new multi-million dollar airport, the
jury
recommended that when the new management takes charge Jan. 1 the
airport be operated in a manner that will eliminate political
influences
es. di Fa
A01:0510k
A01:0510m
A01:0520a
A01:0520b
A01:0520c
A01:0520d
A01:0520e
A01:0520f
A01:0520g
A01:0520h
A01:0520i
A01:0520j
A01:0520k
A01:0520m
A01:0520n
A01:0530a
A01:0530b
A01:0530c
A01:0530d
A01:0530e
A01:0530f
A01:0530g
A01:0530h
A01:0530i
A
YB
II
NP1t
GG
JJ
FB
YH
NNOc
YH
NNU1c
NNL1c
YC
AT
NN1c
VVDt
YIL
CST
CSn
AT
JJ
NN1n
VVZv
NN1n
NPM
<minbrk>
- [Oh.Oh]
Regarding
regarding [O[S[P:r.
Atlanta Atlanta [Ns[G[Nns.Nns]
+<apos>s
- .G]
new
new .
multi
multi<hyphen>
[Nu.
+<hyphen>
- .
+million
million
.
+<hyphen>
- .
+dollar dollar .Nu]
airport airport .Ns]P:r]
+,
.
the
the [Ns:s.
jury
jury .Ns:s]
recommended recommend [Vd.Vd]
<ldquo> .
+that
that [Fn%:o.
when
when [Fa:t[Rq:t.Rq:t]
the
the [Ns:s.
new
new .
management
management .Ns:s]
takes
take [Vz.Vz]
charge charge [Ns:o.Ns:o]
Jan.
[N:t.
D-139
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0530j
MC1n
A01:0530k
AT
A01:0530m
NNL1c
A01:0540a
VB0
A01:0540b
VVNv
A01:0540c
II
A01:0540d
AT1
A01:0540e
NN1c
A01:0540f
CST
A01:0540g
YG
A01:0540h
VMo
A01:0540i
VV0t
A01:0540j
JJ
A01:0540k
.Np:o]Fr]Ns:133]P:h]Fn%:o]
A01:0540m
YIR
A01:0540n
YF
1
.N:t]Fa:t]
the
the [Ns:S.
airport airport .Ns:S]
be
be
[Vjp.
operated
operate
.Vjp]
in
in
[P:h.
a
a
[Ns:133.
manner manner .
that
that [Fr.
[s133.s133]
will
will [Vc.
eliminate
eliminate
.Vc]
political
political
[Np:o.
NN2
influences
influence
+<rdquo>
+.
-
.O]
.S]
6.
Yes, your honor, replied Bellows. What this amounts to, if true, is
that there will be a free-for-all fight in this case. There is a
conflict among the defendants.
Es. di Ff
A03:0160e
YB
A03:0160f
YIL
A03:0160g
UH
A03:0160h
YC
A03:0160i
APPGy
A03:0160j
NN1n
A03:0160k
YIR
A03:0160m
YC
A03:0160n
VVDv
A03:0170a
NP1s
A03:0170b
YF
A03:0170c
YIL
A03:0170d
[Q[S[Ff:s[Dq:G111.Dq:G111]
A03:0170e
DD1i
A03:0170f
VVZi
A03:0170g
IIt
A03:0170h
YG
A03:0170i
YC
A03:0170j
CSi
A03:0170k
JJ
A03:0170m
YC
A03:0170n
VBZ
A03:0170p
CST
A03:0170q
EX
A03:0170r
VMo
A03:0170s
VB0
A03:0170t
AT1
A03:0170u
JJ
A03:0170v
YH
A03:0170w
IF
A03:0170x
YH
A03:0170y
DBa
A03:0180a
NN1n
A03:0180b
II
A03:0180c
DD1i
<minbrk>
[Oh.Oh]
<ldquo> [O[S.
+Yes
yes [Q:o.
+,
.
your
your [Ns”.
honor
honour .Ns”]Q:o]
+<rdquo>
.
+,
.
replied reply
[Vd.Vd]
Bellows Bellows [Nns:s.Nns:s]S]
+.
.
<ldquo> .
DDQ
+What
what
this
this [Ds:s.Ds:s]
amounts amount [Vz.Vz]
to
to
[P:u.
[111.111]P:u]
+,
.
if
if
[Fa:c.
true
true [J:e.J:e]Fa:c]Ff:s]
+,
.
is
be
[Vzb.Vzb]
that
that [Fn:e.
there
there
.
will
will [Vcb.
be
be
.Vcb]
a
a
[Ns:s.
free
free [Jh.
+<hyphen>
.
+for
for [P.
+<hyphen>
.
+all
all .P]Jh]
fight
fight
.Ns:s]
in
in
[P:p.
this
this [Ns.
D-140
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A03:0180d
A03:0180e
A03:0180f
A03:0180g
A03:0180h
A03:0180i
A03:0180j
A03:0180k
A03:0180m
.Np]P]Ns:s]S]Q]
A03:0180n
A03:0180p
-
NN1c
YF
EX
VBZ
AT1
NN1n
II
AT
-
-
YIR
YF
case
case .Ns]P:p]Fn:e]S]
+.
.
There
there
[S.
is
be
[Vzb.Vzb]
a
a
[Ns:s.
conflict
conflict
.
among
among
[P.
the
the [Np.
NN2
defendants
defendant
+<rdquo>
+.
-
.O]
.
7.
It recommended that Fulton legislators act to have these laws
studied and revised to the end of modernizing and improving them.
Es. di Tg
A01:0150f
YB
<minbrk>
[Oh.Oh]
A01:0150g
PPH1
It
it
[O[S[Ni:s.Ni:s]
A01:0150h
VVDt
recommended recommend
[Vd.Vd]
A01:0150i
CST
that
that [Fn%:o.
A01:0150j
NP1s
Fulton Fulton [Np:s[Nns.Nns]
A01:0150k
NN2
legislators legislator
.Np:s]
A01:0160a
VV0v
act
act [V.V]
A01:0160b
YIL
<ldquo> .
A01:0160c
TO
+to
to
[Ti:c[Vi.
A01:0160d
VH0
have
have .Vi]
A01:0160e
DD2i
these
these
[Np:o.
A01:0160f
NN2
laws
law .Np:o]
A01:0160g
VVNv
studied study
[Tn:j[Vn[VVNv&.
A01:0160h
CC
and
and [VVNt+.
A01:0160i
VVNt
revised revise .VVNt+]VVNv&]Vn]
A01:0160j
IIt
to
to
[P:c.
A01:0160k
AT
the
the [Ns.
A01:0160m
NN1c
end
end .
A01:0160n
IO
of
of
[Po.
A01:0160p
VVGt
modernizing
modernize
[Tg[Vg[VVGt&.
A01:0170a
CC
and
and [VVGv+.
A01:0170b
VVGv
improving
improve
.VVGv+]VVGt&]Vg]
A01:0170c
PPHO2
them
they
[Nop:o.Nop:o]Tg]Po]Ns]P:c]Tn:j]Ti:c]
A01:0170d
YIR
+<rdquo>
.Fn%:o]S]
A01:0170e
YF
+.
.O]
8.
However, the jury said it believes these two offices should
combined to achieve greater efficiency and reduce the cost
administration.
Es. di Ti
A01:0210d
A01:0210e
A01:0210f
A01:0210g
A01:0210h
A01:0210i
-
YBR
RR
YC
AT
NN1c
VVDv
<emajhd>
.Oh]
However however [O[S[R:c.R:c]
+,
.
the
the [Ns:s.
jury
jury .Ns:s]
said
say [Vd.Vd]
D-141
be
of
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0210j
PPH1
it
it
[Fn:o[Ni:s.Ni:s]
A01:0210k
VVZv
believes
believe [Vz.Vz]
A01:0210m
YIL
<ldquo> .
A01:0210n
DD2i
+these these
[Fn:o[Np:S.
A01:0220a
MC
two
two .
A01:0220b
NN2
offices office .Np:S]
A01:0220c
VMd
should shall
[Vdcp.
A01:0220d
VB0
be
be
.
A01:0220e
VVNv
combined
combine .Vdcp]
A01:0220f
TO
to
to
[Ti:c[Vi.
A01:0220g
VV0t
achieve achieve .Vi]
A01:0220h
JJR
greater great
[Ns:o.
A01:0220i
NN1u
efficiency
efficiency
.Ns:o]
A01:0220j
CC
and
and [Ti+.
A01:0220k
VV0v
reduce reduce [V.V]
A01:0230a
AT
the
the [Ns:o.
A01:0230b
NN1n
cost
cost .
A01:0230c
IO
of
of
[Po.
A01:0230d
NNJ1n
administration
administration
.Po]Ns:o]Ti+]Ti:c]Fn:o]Fn:o]
A01:0230e
YIR
+<rdquo>
.S]
A01:0230f
YF
+.
.O]
9.
State Party Chairman James W. Dorsey added that enthusiasm was
picking up for a state rally to be held Sept. 8 in Savannah at which
newly elected Texas Sen. John Tower will be the featured speaker.
Es. d Tf
A01:0900e
A01:0900f
A01:0900g
A01:0900h
A01:0900i
A01:0900j
A01:0900k
A01:0910a
A01:0910b
A01:0910c
A01:0910d
A01:0910e
A01:0910f
A01:0910g
A01:0910h
A01:0910i
A01:0910j
A01:0910k
A01:0910m
A01:0910n
A01:0910p
A01:0910q
A01:0910r
A01:0920a
A01:0920b
A01:0920c
[Nns.Nns]P:p]
A01:0920d
A01:0920e
A01:0920f
A01:0920g
A01:0920h
A
A
-
YB
NNL1n
NNJ1n
NNS1c
NP1m
NP1i
NP1s
VVDv
CST
NN1u
YG
VBDZ
VVGv
RP
IF
AT1
NNL1n
NN1c
YG
TO
VB0
VVNv
NPM
MCn
II
<minbrk>
[Oh.Oh]
State
state
[O[S[Nns:s.
Party
party
.
Chairman
chairman
.
James
James
.
W.
.
Dorsey Dorsey .Nns:s]
added
add [Vd.Vd]
that
that [Fn:o.
enthusiasm
enthusiasm
[Ns:s.
[143.143]Ns:s]
was
be
[Vsu.
picking pick .Vsu]
up
up
[R:n.R:n]
for
for [Tf:G143.
a
a
[Ns:S145.
state
state
.
rally
rally
.
[147.147]Ns:S145]
to
to
[Vip.
be
be
.
held
hold .Vip]
Sept.
[N:t.
8
.N:t]
in
in
[P:p.
NN1c
Savannah
Savannah
II
DDQr
RR
VVNt
NP1p
at
which
newly
elected
Texas
-
at
[Fr:G147[Pq:p.
which
[Dq:145.Dq:145]Pq:p]
newly
[Nns:s[Tn[R:t.R:t]
elect
[Vn.Vn]Tn]
Texas
.
D-142
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0920i
A
NNS
A01:0920j
NP1m
A01:0920k
NP1s
A01:0930a
VMo
A01:0930b
VB0
A01:0930c
AT
A01:0930d
VVNt
A01:0930e
.Ns:e]Fr:G147]Tf:G143]Fn:o]S]
A01:0930f
YF
Sen.
.
John
John .
Tower
Tower
.Nns:s]
will
will [Vcb.
be
be
.Vcb]
the
the [Ns:e.
featured
feature [Tn[Vn.Vn]Tn]
NNS1c
speaker
speaker
+.
-
.O]
10.
Daniel termed extremely conservative his estimate that it would
produce million dollars to help erase an anticipated deficit of 63
million dollars at the end of the current fiscal year next Aug. 31.
Es. di Tb
A02:0100a
YB
<minbrk>
[Oh.Oh]
A02:0100b
NP1s
Daniel Daniel [O[S[Nns:s.Nns:s]
A02:0100c
VVDt
termed term [Vd.Vd]
A02:0100d
YIL
<ldquo> .
A02:0100e
RR
+extremely
extremely
[J:j.
A02:0100f
JJ
conservative conservative
.J:j]
A02:0100g
YIR
+<rdquo>
.
A02:0100h
APPGm
his
his [Ns:o.
A02:0100i
NN1c
estimate
estimate
.
A02:0100j
CST
that
that [Fn.
A02:0100k
PPH1
it
it
[Ni:s.Ni:s]
A02:0100m
VMd
would
will [Vdc.
A02:0110a
VV0v
produce produce .Vdc]
A02:0110b
MCn
17
[Nup:o[M.
A02:0110c
NNOc
million million .M]
A02:0110d
NNU2
dollars dollar .Nup:o]
A02:0110e
TO
to
to
[Ti:c[Vi.
A02:0110f
VV0v
help
help .Vi]
A02:0110g
VV0t
erase
erase
[Tb:o[V.V]
A02:0110h
AT1
an
an
[Ns:o.
A02:0110i
VVNt
anticipated
anticipate
[Tn[Vn.Vn]Tn]
A02:0110j
NN1c
deficit deficit .
A02:0110k
IO
of
of
[Po.
A02:0120a
MCn
63
[Nup[M.
A02:0120b
NNOc
million million .M]
A02:0120c
NNU2
dollars dollar .Nup]Po]Ns:o]
A02:0120d
II
at
at
[P:t.
A02:0120e
AT
the
the [Ns.
A02:0120f
NN1c
end
end .
A02:0120g
IO
of
of
[Po.
A02:0120h
AT
the
the [Ns.
A02:0120i
JB
current current .
A02:0120j
JJ
fiscal fiscal .
A02:0120k
NNT1c
year
year .Ns]Po]
A02:0120m
MDt
next
next [N@.
A02:0120n
A
NPM
Aug.
.
A02:0130a
MCn
31
.N@]Ns]P:t]Tb:o]Ti:c]Fn]Ns:o]S]
A02:0130b
YF
+.
.O]
11.
It was
a
fortunate
time in which to build, for
D-143
the
seventeenth
Linea 1.1 - Treebank sintattico-semantica dell'italiano
century was a great period in Persian art.
Es. di Tq
G05:0010a
G05:0010b
G05:0010c
G05:0010d
G05:0010e
G05:0010f
G05:0010g
G05:0010h
G05:0010i
G05:0010j
G05:0010k
G05:0010m
G05:0010n
G05:0010p
G05:0020a
G05:0020b
G05:0020c
G05:0020d
G05:0020e
G05:0020f
G05:0020g
G05:0020h
G05:0020i
-
YB
PPH1
VBDZ
AT1
JJ
NNT1c
II
DDQr
TO
VV0v
YC
CSf
AT
MD
NNT1c
VBDZ
AT1
JJ
NN1c
II
JJ
NN1n
YF
<minbrk>
[Oh.Oh]
It
it
[O[S[Ni:s.Ni:s]
was
be
[Vsb.Vsb]
a
a
[Ns:e101.
fortunate
fortunate
.
time
time .
in
in
[Tq[Pq:p.
which
which
[Dq:101.Dq:101]Pq:p]
to
to
[Vi.
build
build
.Vi]Tq]Ns:e101]
+,
.
for
for [Fa:c.
the
the [Ns:s.
seventeenth seventeenth
.
century century .Ns:s]
was
be
[Vsb.Vsb]
a
a
[Ns:e.
great
great
.
period period .Ns:e]
in
in
[P:p.
Persian Persian [Ns.
art
art .Ns]P:p]Fa:c]S]
+.
.
12.
With eyes focused on the third congressional district, the historic
Delta district, and Congressman Frank E. Smith as the one most
likely to go, the redistricting battle will put to a test the
longstanding power which lawmakers from the Delta have held in the
Legislature.
Es. di W
A08:0950i
A08:0950j
A08:0950k
A08:0950m
A08:0960a
A08:0960b
A08:0960c
A08:0960d
A08:0960e
A08:0960f
A08:0960g
A08:0960h
A08:0960i
A08:0960j
.Nns@]
A08:0960k
A08:0960m
A08:0970a
A08:0970b
A08:0970c
A08:0970d
A08:0970e
A08:0970f
A08:0970g
A08:0970h
-
YB
IW
NN2
VVNv
II
AT
MD
JJ
NNL1c
YC
AT
JJ
NN1c
<minbrk>
[Oh.Oh]
With
with [O[S[W:b.
eyes
eye [Np:S.Np:S]
focused focus
[Vn.Vn]
on
on
[P:q.
the
the [N.
third
third
.
congressional
congressional
.
district
district
.
+,
.
the
the [Nns@.
historic
historic
.
Delta
delta
.
NNL1c
district
district
YC
CC
NNS1c
NP1m
NP1i
NP1s
IIa
AT
MC1
DAT
+,
.
and
and [Nns+.
Congressman congressman
Frank
Frank
.
E.
.
Smith
Smith
.Nns+]N]P:q]
as
as
[P:j.
the
the [Ms:184.
one
one .
most
most [Z[J:e.
A
-
D-144
.
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A08:0970i
JJ
likely likely .J:e]
A08:0970j
YG
[Ti:s[s184.s184]
A08:0970k
TO
to
to
[Vi.
A08:0970m
VV0i
go
go
.Vi]Ti:s]Z]Ms:184]P:j]W:b]
A08:0970n
YC
+,
.
A08:0970p
AT
the
the [Ns:s.
A08:0970q
VVGt
redistricting
redistrict
[Tg[Vg.Vg]Tg]
A08:0980a
NN1n
battle battle .Ns:s]
A08:0980b
VMo
will
will [Vc.
A08:0980c
VV0v
put
put .Vc]
A08:0980d
IIt
to
to
[P:q.
A08:0980e
AT1
a
a
[Ns.
A08:0980f
NN1c
test
test .Ns]P:q]
A08:0980g
AT
the
the [Ns:o167.
A08:0980h
JJ
longstanding long<hyphen>standing
.
A08:0980i
NN1n
power
power
.
A08:0980j
DDQr
which
which
[Fr[Dq:o167.Dq:o167]
A08:0980k
NN2
lawmakers
lawmaker
[Np:s.
A08:0990a
II
from
from [P.
A08:0990b
AT
the
the [Nns.
A08:0990c
NN1c
Delta
delta
.Nns]P]Np:s]
A08:0990d
VH0
have
have [Vf.
A08:0990e
VVNv
held
hold .Vf]
A08:0990f
II
in
in
[P:p.
A08:0990g
AT
the
the [Nns.
A08:0990h
NNJ1c
Legislature
legislature
.Nns]P:p]Fr]Ns:o167]S]
A08:0990i
YF
+.
.O]
13.
After a long, hot controversy, Miller County has a new school
superintendent elected, as a policeman put it, in the coolest
election I ever saw in this county
Es. di A, J
A01:1670j
A01:1670k
A01:1670m
A01:1670n
A01:1670p
A01:1670q
.Ns]P:t]
A01:1670r
A01:1680a
A01:1680b
A01:1680c
A01:1680d
A01:1680e
A01:1680f
A01:1680g
A01:1680h
A01:1680i
A01:1680j
A01:1680k
A01:1680m
A01:1680n
A01:1690a
-
ICSt
AT1
JJ
YC
JJ
-
-
After
a
long
+,
hot
NN1n
YC
NP1s
NNL1cb
VHZ
AT1
JJ
NNJ1n
NNS1c
YC
YG
VVNt
YC
CSA
AT1
-
after
[S[P:t.
a
[Ns.
long [J[JJ&.
.
hot [JJ-.JJ-]JJ&]J]
controversy
controversy
+,
.
Miller Miller [Nns:s.
County county .Nns:s]
has
have [Vz.Vz]
a
a
[Ns:o235.
new
new .
school school .
superintendent superintendent .
+,
.
[Tn[S235.S235]
elected elect
[Vn.Vn]
+,
.
as
as
[A:m.
a
a
[Ns:s.
NN1c
policeman
policeman
D-145
Linea 1.1 - Treebank sintattico-semantica dell'italiano
.Ns:s]
A01:1690b
VVDv
A01:1690c
PPH1
A01:1690d
YC
A01:1690e
II
A01:1690f
AT
A01:1690g
YIL
A01:1690h
JJT
A01:1690i
NN1n
A01:1690j
PPIS1
A01:1690k
RR
A01:1690m
VVDv
A01:1690n
YG
A01:1690p
II
A01:1690q
DD1i
A01:1690r
NNL1cb
A01:1690s
.Ns:237]P:p]Tn]Ns:o235]S]
A01:1690t
YF
put
put [Vd.Vd]
it
it
[Ni:o.Ni:o]A:m]
+,
.
in
in
[P:p.
the
the [Ns:237.
<ldquo> .
+coolest
cool
.
election
election
I
I
[Fr[Nea:s.Nea:s]
ever
ever [R:t.R:t]
saw
see [Vd.Vd]
[o237.o237]
in
in
[P:p.
this
this [Ns.
county county .Ns]P:p]Fr]
YIR
+<rdquo>
+.
-
.
-
.O]
14.
The disclosure by Charles Bellows, chief defense counsel, startled
observers and was viewed as the prelude to a quarrel between the six
attorneys representing the eight former policemen now on trial.
Es. di Z
A03:0040a
A03:0040b
A03:0040c
A03:0040d
A03:0040e
A03:0040f
A03:0040g
A03:0040h
A03:0040i
A03:0040j
A03:0040k
A03:0050a
[Np:o.Np:o]
A03:0050b
A03:0050c
A03:0050d
A03:0050e
A03:0050f
A03:0050g
A03:0050h
A03:0050i
A03:0050j
A03:0050k
A03:0050m
A03:0050n
A03:0060a
A03:0060b
A03:0060c
[Vg.Vg]
A03:0060d
A03:0060e
A03:0060f
A03:0060g
A03:0060h
A03:0060i
-
AT
NN1n
IIb
NP1m
NP1s
YC
JB
NN1n
NNn
YC
VVDt
The
the [S[Ns:s.
disclosure
disclosure
.
by
by
[Pb.
Charles Charles [Nns.
Bellows Bellows .
+,
.
chief
chief
[N@.
defense defence .
counsel counsel .N@]
+,
.Nns]Pb]Ns:s]
startled
startle [Vd.Vd]
NN2
observers
observer
CC
VBDZ
VVNt
IIa
AT
NN1c
IIt
AT1
NN1c
II
AT
MC
NN2
YG
and
and [S+.
was
be
[Vsp.
viewed view .Vsp]
as
as
[P:e.
the
the [Ns.
prelude prelude .
to
to
[P.
a
a
[Ns.
quarrel quarrel .
between between [P.
the
the [Np:103.
six
six .
attorneys
attorney
.
[Tg[s103.s103]
VVGt
representing
represent
-
AT
MC
DAr
NN2
YG
RTo
the
the [Np:o104.
eight
eight
.
former former .
policemen
policeman
[Z[s104.s104]
now
now [Rw:t.Rw:t]
D-146
.
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A03:0060j
II
on
on
[P:p.
A03:0060k
NN1n
trial
.P:p]Z]Np:o104]Tg]Np:103]P]Ns]P]Ns]P:e]S+]S]
A03:0060m
YF
+.
.O]
trial
15.
Within an easy walk from the Capitol Hill where Pennsylvania Avenue
comes together with Constitution Avenue, begins a series of great
federal buildings, some a block long and all about seven-stories
high.
Es. di L
A08:0300a
II
A08:0300b
AT1
A08:0300c
JJ
A08:0300d
NNL1c
A08:0300e
II
A08:0300f
NN1c
A08:0300g
NNL1c
A08:0300h
CSr
A08:0300i
NP1p
A08:0300j
NNL1c
A08:0300k
VVZi
A08:0310a
[P:u[II=.
A08:0310b
II22
A08:0310c
NN1n
A08:0310d
NNL1c
A08:0310e
YC
A08:0310f
VVZv
A08:0310g
AT1
A08:0310h
NNc
A08:0310i
IO
A08:0310j
JJ
A08:0310k
JJ
A08:0320a
NNL2
A08:0320b
YC
A08:0320c
DDi
A08:0320d
AT1
A08:0320e
NN1c
A08:0320f
JJ
A08:0320g
CC
A08:0320h
DBa
A08:0320i
RGi
A08:0320j
MC
A08:0320k
YH
A08:0320m
NN2
A08:0320n
.Jx:e]L+]L]Np]Po]Ns:s]S]
A08:0320p
YF
Within within [S[P:p.
an
an
[Ns.
easy
easy .
walk
walk .
from
from [P.
Capitol Capitol [Nns.
Hill
hill .Nns]P]
where
where
[Fa[Rq:p.Rq:p]
Pennsylvania Pennsylvania
[Nns:s.
Avenue avenue .Nns:s]
comes
come [Vz.Vz]
II21
together
together
with
with .II=]
Constitution constitution
[Nns.
Avenue avenue .Nns]P:u]Fa]Ns]P:p]
+,
.
begins begin
[Vz.Vz]
a
a
[Ns:s.
series series .
of
of
[Po.
great
great
[Np.
federal federal .
buildings
building
.
+,
.
some
some [L[D:s.D:s]
a
a
[Jx:e[Ns.
block
block
.Ns]
long
long .Jx:e]
and
and [L+.
all
all [D:s.D:s]
about
about
[Jx:e[Np.
seven
seven
.
+<hyphen>
.
+stories
story
.Np]
JJ
high
high
+.
-
.O]
16.
The grand jury commented on a number of other topics, among them the
Atlanta and Fulton County purchasing departments, which it said are
well operated and follow generally accepted practices which inure to
the best interest of both governments.
Es. di V
D-147
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0170f
YB
<minbrk>
[Oh.Oh]
A01:0170g
AT
The
the [O[S[Ns:s.
A01:0170h
JJ
grand
grand
.
A01:0170i
NN1c
jury
jury .Ns:s]
A01:0170j
VVDi
commented
comment [Vd.Vd]
A01:0170k
II
on
on
[P:u.
A01:0170m
AT1
a
a
[Ns.
A01:0170n
NN1c
number number .
A01:0180a
IO
of
of
[Po.
A01:0180b
JBo
other
other
[Np.
A01:0180c
NN2
topics topic
.Np]Po]Ns]P:u]
A01:0180d
YC
+,
.
A01:0180e
II
among
among
[L:b[P:p.
A01:0180f
PPHO2
them
they .P:p]
A01:0180g
AT
the
the [Np:s113.
A01:0180h
NP1t
Atlanta Atlanta [Nn.
A01:0180i
CC
and
and [Nns+.
A01:0180j
NP1s
Fulton Fulton .
A01:0180k
NNL1cb County county .Nns+]Nn]
A01:0180m
VVGt
purchasing
purchase
[Tg[Vg.Vg]Tg]
A01:0190a
NN2
departments department
.
A01:0190b
DDQr
which
which
[Fr[Dq:G113.Dq:G113]
A01:0190c
PPH1
it
it
[Ni:s.Ni:s]
A01:0190d
VVDv
said
say [Vd.Vd]
A01:0190e
YIL
<ldquo> .
A01:0190f
YG
[Fn:o[o113.o113]
A01:0190g
YG
[h115.h115]
A01:0190h
VBR
+are
be
[Vap.
A01:0190i
RR
well
well [R:G115.R:G115]
A01:0190j
VVNv
operated
operate
.Vap]
A01:0190k
CC
and
and [Fn+.
A01:0190m
VV0v
follow follow [V.V]
A01:0190n
RR
generally
generally
[Np:o117[Tn[R:h.R:h]
A01:0200a
VVNv
accepted
accept [Vn.Vn]Tn]
A01:0200b
NN2
practices
practice
.
A01:0200c
DDQr
which
which
[Fr[Dq:s117.Dq:s117]
A01:0200d
VV0t
inure
inure
[V.V]
A01:0200e
IIt
to
to
[P:u.
A01:0200f
AT
the
the [Ns.
A01:0200g
JJT
best
good .
A01:0200h
NN1n
interest
interest
.
A01:0200i
IO
of
of
[Po.
A01:0200j
DB2
both
both [Np.
A01:0200k
NN2
governments
government
.Np]Po]Ns]P:u]Fr]Np:o117]Fn+]Fn:o]
A01:0200m
YIR
+<rdquo>
- .Fr]Np:s113]L:b]S]
A01:0200n
YF
+.
.O]
17.
Gov. Vandiver is expected to make the traditional visit to both
chambers as they work toward adjournment. Vandiver likely will
mention the $100 million highway bond issue approved earlier in the
session as his first priority item.
Es. di R, M
A01:1190d
A01:1190e
A01:1190f
A01:1190g
A
-
YB
NNS
NP1s
VBZ
<minbrk>
Gov.
Vandiver
is
be
D-148
- [Oh.Oh]
[O[S[Nns:S179.
Vandiver
.Nns:S179]
[Vzp.
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:1190h
A01:1190i
A01:1190j
A01:1190k
A01:1190m
A01:1190n
A01:1200a
A01:1200b
A01:1200c
A01:1200d
A01:1200e
A01:1200f
A01:1200g
A01:1200h
A01:1200i
.P:q]Fa:t]Ti:o]S]
A01:1200j
A01:1200k
[S[Nns:s.Nns:s]
A01:1200m
A01:1210a
A01:1210b
A01:1210c
A01:1210d
A01:1210e
A01:1210f
A01:1210g
A01:1210h
A01:1210i
A01:1210j
A01:1210k
A01:1210m
A01:1220a
A01:1220b
A01:1220c
.Ns]P]R:t]Tn]Ns:o181]
A01:1220d
A01:1220e
A01:1220f
A01:1220g
A01:1220h
A01:1220i
-
VVNt
YG
TO
VV0v
AT
JJ
NN1c
IIt
DB2
NNL2
CSA
PPHS2
VV0v
II
YF
expected
expect
.Vzp]
[Ti:o[s179.s179]
to
to
[Vi.
make
make .Vi]
the
the [Ns:o.
traditional traditional
.
visit
visit
.
to
to
[P.
both
both [Np.
chambers
chamber
.Np]P]Ns:o]
as
as
[Fa:t.
they
they [Nap:s.Nap:s]
work
work [V.V]
toward toward [P:q.
NN1c
adjournment
adjournment
+.
NP1s
-
.
Vandiver
Vandiver
RR
VMo
VV0t
AT
NNUb
MCn
NNOc
NNL1c
NN1c
NN1n
YG
VVNv
RRR
II
AT
likely likely [R:m.R:m]
will
will [Vc.
mention mention .Vc]
the
the [Ns:o181.
<dollar>
- [Nu.
+100
[M.
million million .M]Nu]
highway highway [Ns.
bond
bond .Ns]
issue
issue
.
[Tn[S181.S181]
approved
approve [Vn.Vn]
earlier early
[R:t.
in
in
[P.
the
the [Ns.
NNT1c
session
session
IIa
APPGm
MDo
NN1n
NN1c
YF
as
as
[P:j.
his
his [Ns.
first
first
[Ns.
priority
priority
item
item .Ns]P:j]S]
+.
.O]
.Ns]
18.
The petition said that the couple has not lived together as man and
wife for more than a year.
Es. di D
A01:0760h
A01:0760i
A01:0760j
.Ns:s]
A01:0760k
A01:0760m
A01:0760n
A01:0760p
A01:0770a
A01:0770b
A01:0770c
A01:0770d
[R:w.R:w]
-
YB
AT
<minbrk>
[Oh.Oh]
The
the [O[S[Ns:s.
NN1c
petition
petition
VVDv
CST
AT
NN1c
VHZ
XX
VVNv
said
that
the
couple
has
not
lived
RL
-
say [Vd.Vd]
that [Fn:o.
the [Ns:s.
couple .Ns:s]
have [Vzef.
not .
live .Vzef]
together
D-149
together
Linea 1.1 - Treebank sintattico-semantica dell'italiano
A01:0770e
A01:0770f
A01:0770g
A01:0770h
A01:0770i
A01:0770j
A01:0770k
A01:0770m
A01:0770n
A01:0770p
-
IIa
NN1c
CC
NN1c
IF
DAR
CSN
AT1
NNT1c
YF
as
man
and
wife
for
more
than
a
year
+.
as
man
and
wife
for
more
than
a
year
-
[P:h.
[N[NN1c&.
[NN1c+.
.NN1c+]NN1c&]N]P:h]
[P:t.
[D.
[P.
[Ns.
.Ns]P]D]P:t]Fn:o]S]
.O]
19.
Georgia Republicans are getting strong encouragement to
candidate in the 1962 governor’s race, a top official said
enter
a
Es. di G
A01:0860a
A01:0860b
[O[S[S:o[Np:s[Nns.Nns]
A01:0860c
.Np:s]
A01:0860d
A01:0860e
A01:0860f
A01:0860g
A01:0860h
A01:0860i
A01:0870a
A01:0870b
.Ns:o]
A01:0870c
A01:0870d
A01:0870e
A01:0870f
A01:0870g
A01:0870h
A01:0870i
A01:0870j
A01:0870k
A01:0870m
.Ns:s]
A01:0870n
A01:0870p
[Nns:t.Nns:t]S]
A01:0870q
-
YB
<minbrk>
NP1p
NN2
-
[Oh.Oh]
Georgia
Georgia
Republicans
republican
VBR
VVGv
JJ
NN1n
TO
VV0v
AT1
are
be
[Vau.
getting get .Vau]
strong strong [Ns:o.
encouragement
encouragement .
to
to
[Ti[Vi.
enter
enter
.Vi]
a
a
[Ns:o.
NN1c
candidate
candidate
II
AT
MCy
NNS1c
GG
NN1n
YC
AT1
NN1c
in
in
[P:p.
the
the [Ns.
1962
.
governor
governor
[G.
+<apos>s
.G]
race
race .Ns]P:p]Ti]Ns:o]S:o]
+,
.
a
a
[Ns:s.
top
top .
NN1c
official
official
VVDv
YF
said
NPD1
+.
say [Vd.Vd]
Wednesday
-
Wednesday
.O]
PB e TSAM: CARATTERISTICHE COMUNI
Entrambi i casi in esame hanno scelto di produrre una annotazione
sintattica unificata che inglobi i tratti e i tag morfosintattici
tralasciando le caratteristiche tipografiche del testo. Iniziamo a
commentare dal PB che più degli altri si differenzia dal nostro
approccio. Includiamo qui in basso le intenzioni del curatore
Marcus:
“This is the Penn Treebank Project: Release 2 CDROM, featuring a
million
words of 1989 Wall Street Journal material annotated in Treebank II
style. This bracketing style, which is designed to allow the
D-150
Linea 1.1 - Treebank sintattico-semantica dell'italiano
extraction of simple predicate-argument structure, is described in
doc/arpa94 and the new bracketing style manual (in doc/manual/). In
addition, there is a small sample of ATIS-3 material, also annotated
in Treebank II style. Finally, there is a considerably cleaner
version of the material released on the previous Treebank CDROM
(Preliminary Release, Version 0.5, December 1992), annotated in
Treebank I style.”
Il PT è legato ad una visione strettamente configurazionale della
rappresentazione sintattica e la presenza massiccia di categorie
vuote: in pratica la teoria chomskiana che prevede la possibilità di
attuare una interpretazione semantica partendo dalla struttura
superficiale sulla quale vengono aggiunte tutte le categoria vuote,
sia quelle prodo
tte dal movimento WH- sia quelle più frequenti prodotte dal
movimento NP. Inoltre, vengono indicate con categorie vuote tutte le
funzioni grammaticali inespresse, come i soggetti di verbi di modo
indefinito, e tutte le strutture ellittiche. Il problema principale
di questa rappresentazione sintattica è la presenza del nodo VP e
l’utilizzo massiccio della chomsky-adjunction per indicare tipi
diversi di fenomeni:
- gli elementi in SPEC vengono inclusi in un nodo duplicato del
costituente principale:
- ad esempio nel VP gli ausiliari sono in un nodo duplicato più
alto,
(S (NP-SBJ Casey)
(VP will
(VP throw
(NP the ball))))
- lo stesso vale per i modificatori di NP che sono attaccati al nodo
NP più alto, (S (NP
(NP the soldiers)
(ADJP involved
(PP in
(NP the killing))))
- nel caso in cui ci fosse una frase appositiva aggiunta ci sarebbe
un nodo di VP aggiunto e avremmo la situazione seguente con tre nodi
di VP: (S (NP-SBJ Investors)
(VP might
(VP (VP appear
(ADJP-PRD unenthusiastic
(PP about
(NP the new issue))))
(SBAR (WHNP-1 which)
- invece nel caso si abbiano complementi del predicato reggente
questi
vengono
subito
dopo la
testa
come
nella
nostra
rappresentazione:
(NP the belief
(SBAR that
(S the world is flat)))
Per quanto riguarda i premodificatori invece, la PT
nostro stesso criterio di includerli direttamente
livello della testa:
“Premodifiers:
Premodifiers generally
associated with:
(NP the red ball)
are
placed
inside
D-151
the
utilizza il
allo stesso
phrase
they
are
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(ADJP extremely delicious)
(ADVP (NP one year) ago)
VP premodifiers, however, are more often attached at S-level or
VP level.”
at
Il discorso è che gli avverbiali vengono inclusi in un loro
costituente senza raddoppiare il nodo come si fa con gli altri
aggiunti:
(S (NP-SBJ Sandy)
(VP (ADVP-MNR sneakily)
threw
(NP a curve)))
Altre pesantezze della descrizione in costituenti si trovano nelle
infinitive che sono costruire come frasi S, con un nodo VP
raddoppiato nel caso ci fosse il “to” espresso: (S (NP-SBJ-1 Casey)
(VP wants
(S (NP-SBJ *-1)
(VP to
(VP throw
(NP the ball))))))
Stranamente poi, quando ci sono frasi dipendenti preposte, queste
vengono messe sotto il nodo S principale allo stesso livello del
resto della principale e non in un nodo aggiunto!!:
(S (S-ADV (NP-SBJ *-1)
(VP Running
(PP-DIR toward
(NP Casey))))
,
(NP-SBJ-1 Willie)
(VP caught
(NP the ball)))
Proprio quando il nodo aggiunto servirebbe a rendere visibile la
relazione di dipendenza tra principale e secondaria, questo viene a
mancare.
Da notare che nel caso in cui la secondaria si trova in posizione
postverbale, questa viene chiusa nel VP come se non si trattasse di
un aggiunto a livello di frase identico a quello in posizione
preverbale. L’esempio che riportiamo è preso da pag.19 e ha i NP
invertiti “He ate *television while watching *dinner”(sic).
( (S (NP-SBJ-1 He)
(VP ate
(NP television)
(SBAR-TMP while
(S (NP-SBJ *-1)
(VP watching
(NP dinner)))))
.))
La PT poi utilizza nomi di costituenti per indicare la non
canonicità
di strutture frasali: ad esempio
SQ
per
frasi
interrogative senza soggetto e senza ausiliare.
(SQ (NP-SBJ *)
(VP See
(NP that cute dog))
?)
Nel caso in cui ci fosse una struttura inversa questa verrebbe
D-152
Linea 1.1 - Treebank sintattico-semantica dell'italiano
comunque indicata a livello alto: (SINV (ADVP-TMP Never)
had
(NP-SBJ I)
(VP seen
(NP such a place)))
Invece
se
la frase inversa fosse una dipendente
di
condizionale, apparirebbe il nodo SBAR: (S (SBAR-ADV (SINV had
(NP-SBJ Casey)
(VP thrown
(NP the ball)
(ADVP-MNR harder))))
,
(NP-SBJ it)
(VP would
(VP have
(VP reached
(NP home plate)...
tipo
E’ difficile interpretare l’utilità di un ulteriore nodo al di sopra
di SINV!
Il nodo SBAR nella PT viene utilizzato per le domande indirette e
per le relative cioè per complementi e aggiunti ma senza attributi:
(S (NP-SBJ (NP The person)
(SBAR (WHNP-1 who)
(S (NP-SBJ *T*-1)
(S (NP-SBJ Willie)
(VP knew
(SBAR that
(S (NP-SBJ Casey)
Il nodo viene aggiunto e non incassato nel NP. Per aumentare la
mescolanza di livelli e di interpretazioni, SBAR viene sostituito da
SBARQ nella domande dirette ed è seguito da SQ e non da S: (SBARQ
(WHNP-1 Who)
(SQ (NP-SBJ *T*-1)
(VP threw
(NP the ball))) ?)
Un ulteriore tipologia strutturale è costituita dalle frasi scisse,
in cui la struttura di frase relativa predicativa viene sollevata a
livello di VP: nel nostro caso invece sarebbe più in alto, allo
stesso livello di frase in cui si trova il soggetto espletivo. Vale
la pena notare che il livello di incassamento nella PT è di 9
parentesi: nella
corrispondente struttura assegnata dalla nostra annotazione, che
proponiamo in basso con le stesse etichette della PT, invece
scenderebbe a 4.
(S-CLF (NP-SBJ It)
(VP is
(ADVP-TMP-PRD then)
(SBAR (WHADVP-1 that)
(S (NP-SBJ-2 young queens) (VP begin
(S (NP-SBJ *-2) (VP to
(VP appear)))
(ADVP-TMP *T*-1))))))
(F-CLF
(NP-SBJ It)
(IBAR is)
D-153
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(COMPC ADVP-TMP-PRD-then)
(FAC PK-that
(F
(NP-SBJ-2 young queens)
(IBAR begin)
(SV2 to appear)))
)
Nella nostra rappresentazione la frase scissa non conterrebbe un
elemento WH- in questo caso ma un complementatore, e la frase
predicativa sarebbe a livello più alto. Con un pronome relativo
avremmo una diversa marca di costituente ma sempre a livello di
frase alta:
(S-CLF (NP-SBJ It)
(VP was
(NP Casey)
(SBAR (WHNP-1 who)
(S (NP-SBJ *T*-1)
(VP threw
(NP the ball))))))
(F-CLF
(NP-SBJ It)
(IBAR was)
(COMPC (NP Casey))
(F2 WHNP-1 who
(F
(NP-SBJ *T*-1)
(IBAR threw)
(COMPT (NP the ball))))
)
Insomma la frase scissa verrebbe trattata come le frasi con
strutture
estraposte che contengono in inglese un
espletivo
lessicale: Nel caso di estraposizione come in quello precedente di
cleft, la frase estraposta non si trova nel complemento ma a livello
più alto. (S (NP-SBJ (NP It)
(S *EXP*-1))
(VP is
(NP-PRD a pleasure)
(S-1 (NP-SBJ *)
(VP to
(VP teach
(NP her))))))
(S
(NP-SBJ It)
(IBAR is)
(COMPC (NP-PRD a pleasure))
(SV2 to teach (NP her))
)
Gli elementi dislocati che si trovano in posizione di inizio frase
non vengono messi in un costituente particolare ma semplicemente
elencati sotto lo stesso nodo in cui si trova poi il soggetto: unica
differenza hanno una marca o attributo aggiunto al NP-TPC di topic.
Nel nostro caso invece, si troverebbero sotto CP separati dalla
frase.
(S (NP-TPC-5 This)
(NP-SBJ every man)
(VP contains
D-154
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(NP *T*-5)
(PP-LOC within
(NP him))))
(CP NP-TPC-5 This
(F
(NP-SBJ every man)
(IBAR contains)
(COMPC (PP-LOC within)
(NP him))))
Una struttura di frase interessante è costituita da FRAG, che viene
utilizzata in PT nel modo seguente:
“FRAG marks those portions of text that appear to be clauses, but
lack too many essential elements for the exact structure to be
easily determined (e.g., answers to questions). Predicate argument
structure therefore cannot be extracted from FRAGs.” (SBARQ (WHNP-9
Who)
(S (NP-SBJ *T*-9)
(VP threw
(NP the ball)))
?)
(FRAG (NP Casey)
,
(NP-TMP yesterday))
Sono tutte le frasi ellittiche.
utilizzato al posto di S.
Notare
che
FRAG
è
di
nuovo
Infine
la
coordinazione.
La
coordinazione
viene
trattata
raddoppiando i nodi e inserendoli in una struttura chomsky-aggiunta.
Dal nodo padre pende l’elemento congiunzione. Dal momento che però
la
stessa cosa avviene con i modificatori, non c’è nessuna
informazione utile per capire che si tratta di una struttura
coordinata.
(NP-SBJ (NP These girls)
and
(NP those boys))
(VP (VP throw
(ADVP-MNR well))
and
(VP catch
(ADVP-MNR badly))))
2.1 Bracket labels
2.1.1 Clause level
S | Simple declarative clause, i.e. one that is not introduced by a
(possibly empty) subordinating conjunction or wh-word and that does
not exhibit subject-verb inversion. SBAR | Clause introduced by a
(possibly empty) subordinating conjunction.
SBARQ |Direct question introduced by a wh-word or wh-phrase.
Indirect questions and relative clauses should be bracketed as SBAR,
not SBARQ.
SINV | Inverted declarative sentence, i.e. one in which the subject
follows the tensed verb or modal.
SQ | Inverted yes/no question, or main clause of a wh-question,
following the wh-phrase in SBARQ.
D-155
Linea 1.1 - Treebank sintattico-semantica dell'italiano
2.1.2 Phrase level
ADJP |Adjective Phrase. Phrasal category headed by an adjective
(including
comparative and superlative
adjectives).
Example:
outrageously expensive.
ADVP
| Adverb Phrase. Phrasal category headed by an adverb
(including comparative and superlative adverbs). Examples: rather
timidly , very well indeed, rapidly . CONJP | Conjunction Phrase.
Used to mark certain “multi-word” conjunctions, such as as well as,
instead of.
FRAG | Fragment.
INTJ | Interjection. Corresponds approximately to the part-of-speech
tag UH.
LST | List marker. Includes surrounding punctuation.
NAC | Not A Constituent; used to show the scope of certain
prenominal modifiers within a noun phrase.
NP | Noun Phrase. Phrasal category that includes all constituents
that depend on a head noun.
NX | Used within certain complex noun phrases to mark the head of
the noun phrase. Corresponds very roughly to N-bar level but used
quite differently.
PP | Prepositional Phrase. Phrasal category headed by a preposition.
PRN | Parenthetical.
PRT | Particle. Category for words that should be tagged RP.
QP | Quantifier Phrase (i.e., complex measure/amount phrase); used
within NP. RRC | Reduced Relative Clause.
UCP | Unlike Coordinated Phrase.
VP | Verb Phrase. Phrasal category headed a verb.
WHADJP | Wh-adjective Phrase. Adjectival phrase containing a whadverb, as in how hot.
WHADVP | Wh-adverb Phrase. Introduces a clause with an ADVP gap. May
be null (containing the 0 complementizer) or lexical, containing a
wh-adverb such ashow or why.
WHNP | Wh-noun Phrase. Introduces a clause with an NP gap. May be
null (containing the 0 complementizer) or lexical, containing some
wh-word, e.g. who, which book, whose daughter, none of which, or how
many leopards. WHPP | Wh-prepositional Phrase. Prepositional phrase
containing a wh-noun phrase (such as of which or by whose authority)
that either introduces a PP gap or is contained by a WHNP.
X |Unknown, uncertain, or unbracketable. X is often used for
bracketing typos and in bracketing the...the - constructions.
Sono 22 simboli di costituenti maggiori. Interessanti
quelli di LST e quelli X che noi non abbiamo.
SBAR
S
NP
PP
(SBAR if
(S (NP that
‘s)
(VP done))
(S (NP the inmate)
is
immediately
(VP returned
(PP to
(NP jail))))))
D-156
forse
sono
Linea 1.1 - Treebank sintattico-semantica dell'italiano
SBARQ
PRT
(NP (NP the period
(PP of
(NP impunity)))
(SBARQ
(WHNP that)
(S (NP T)
has
(VP (VP tarnished
(NP the judicial system))
and
(VP covered
(PRT up)
SINV
((SINV ``
(S-2 (NP-SBJ There)
(VP ‘s
(NP (NP a price)
( (SINV (VP Says
(S *ICH*-1))
(NP-SBJ (NP long-time associate
Jerry Griffin)
SQ
(SQ Can
(NP-SBJ he)
(VP act
(PP (ADVP more)
like
(NP hard-charging Teddy Roosevelt))))
QP
(NP-TMP (QP only 2 1) years)
WHADVP
(SBAR
(WHADVP When)
(S (NP a computerized call)
is
(VP made
(PP to
(NP
(NP a former prisoner)
‘s home phone))))
ADVP
(S (ADVP (NP Next week))
(S
(NP (NP some inmates)
(VP released
D-157
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(ADVP early)
(PP from
(NP the Hampton County jail (PP in
(NP Springfield))))))
WHNP
(NP (NP Computerized phone calls)
(SBAR
(WHNP which)
(S (NP T)
(VP do
(NP everything
(PP from
(NP (VP selling
(NP magazine subscriptions))))
WHPP
(SBAR (WHPP to
(WHNP which justice))
(S has
not
(VP been
(VP applied
)))))
ADJP
(S (SBAR if
(S (NP (NP the soldiers)
(ADJP involved
(PP in
(NP the killing))))
FRAG
(SBARQ (WHNP-9 Who)
(S (NP-SBJ *T*-9)
(VP threw
(NP the ball)))
?)
(FRAG (NP Casey)
,
(NP-TMP yesterday))
RRC
(VP read
(NP (NP the books)
(RRC (PP on (NP the shelf)) (NP-TMP yesterday))))
LST
( (NP (LST 1)
(NP Full payment)
(PP of
(NP (NP hospital bills)
(PP for
D-158
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(NP (NP stays)
(NP (QP up to 90) days))))) .))
( (NP (LST 2)
(NP Full payment)
(PP of
(NP nursing home bills))
(PP-TMP for
(NP
(NP (QP up to 180) days) (PP-TMP
following
(NP (NP discharge)
(PP from
(NP a hospital))))))
.))
( (NP (LST 3)
(NP Hospital outpatient clinic diagnostic service) (PP for
(NP (NP all costs)
(PP in
(NP (NP excess)
(PP of
(NP (NP $ 20)
(NP-ADV a patient)))))))
.))
UCP
(PP-CLR=4 as
(UCP (PP out (PP to (NP lunch)))
and
(ADJP totally half-baked)))
(ADVP=5 *NOT*))))
(UCP-ADV (ADVP (ADVP so much)
(SBAR *RNR*-1))
and
(PP-TMP for
(NP (NP so long)
(SBAR *RNR*-1)))
NAC
(PP (PP-LOC in
(NP court records))
or
(PP-MNR via
(NP the
(NAC Freedom
(PP of
(NP Information)))
Act))))
(NP (NAC sale
(PP of
(NP firecrackers)))
law)
(NP (NAC Secretary
(PP of
(NP State)))
James Baker)
D-159
Linea 1.1 - Treebank sintattico-semantica dell'italiano
INTJ
(INTJ please)
(VP close
(NP the door))
PRN
( (NP-HLN (NP The end)
(PP of
(NP Trujillo))))
( (S (NP-SBJ (NP Assassination)
(PRN ,
(PP (ADVP even)
of
(NP a tyrant))
,))
(VP is
(ADJP-PRD repulsive
(PP to
(NP (NP men)
(PP of
(NP good conscience))))))
NX
(NP the
(NX (NX red book)
and
(NX yellow pencils)))
TSAM
Queste sono le informazioni relative al TSAM:
Antonio Moreno Sandoval, Susana Lo’pez Ruesga, Fernando Sa’nchez
Leo’n
Laboratorio de Lingu’istica Informa’tica
Universidad Auto’noma de Madrid
Version 4, 30 April 1999
Il TSAM unifica tutti i livelli di annotazione all’interno della
rappresentazione sintattica in costituenti in forma parentesizzata.
Ad esempio, nella frase “Giovanni vuole leggere un libro di Chekov”,
“Juan quiere leer un libro de Chejov”
(S
(NP SUBJ ID-1 SG P3
(N “<Juan>“ “Juan” PROPER SG P3))
(VP TENSED PRES IND SG P3
(V “<quiere>“ “querer” TENSED PRES IND SG P3) (CL INFINITIVE OBJ1
(NP * SUBJ REF-1)
(VP UNTENSED INFINITE
(V “<leer>“ “leer” UNTENSED INFINITE)
(NP OBJ1
(ART “<un>“ “uno” INDEF MASC SG)
(N “<libro>“ “libro” MASC SG)
(PP DE
(PREP “<de>“ “de”)
(NP
D-160
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(N “<Chejov>“ “Chejov” PROPER))))))))
Nelle parole degli annotatori:
“Combination of Parts Of Speech (POS) tags and features: the
annotation format combines a typical POS label with feature values
that specify the syntactic information for each (terminal and non
terminal) element.
Layers of annotation: we annotate syntactic categories (i.e., parts
of-speech such as NOUNS, ADJECTIVES, ...), syntactic functions (e.g.
SUBJ, OBJ1 (direct object), OBJ2 (indirect object)...), syntactic
features (i.e. number, gender, tense, etc.) and some semantic
features (HUMAN, TIME, etc.). The actual string is presented between
``<...>‘‘, and its lexeme is between ``... ‘‘.”
L’inventario dei tag sintattici non è molto esteso: è composto da
soli 10 tipi di costituenti sintatti a cui vanno aggiunti tutti i
tratti. % Adjective Phrases
-->
ADJP
% Adverb Phrases
-->
ADVP
% Clauses
-->
CL
% Noun Phrase
-->
NP
% Prepositional Phrases -->
PP
% Quantifier Phrases
-->
QP
% Score -->
(SCORE)
% Sentences
-->
S
% Titles
-->
TITLE
% Verb Phrases -->
VP
4.2 Phrases and clauses
% Adjective Phrases
(ADJP
{ATTR}
{APPOS}
{COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2}
{SUPERLATIVE}
{INTERROGATIVE}
{IDIOM}
{DISCONTINUOUS|DISCONTINUOUS-1|DISCONTINUOUS-2}
{MASC|FEM}
{SG|PL}
{COORDINATED})
% Adverb Phrases
(ADVP
{INTERROGATIVE|NORMAL|LOCATIVE|MODAL|NEG|TIME|REL}
{DEG|COMPARATIVE}
{IDIOM}
{COORDINATED})
% Clauses
(CL
{COMPLETIVE|INFINITIVE|RELATIVE|PARTICIPLE|GERUND}
{INTERROGATIVE|TIME|LOCATIVE|MODAL|EXPLICATIVE|CONCESIVE|NEG|CAUSE|F
INAL} {COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2}
{CONDITIONAL|CONDITION|MAIN}
{COORDINATED|COORDINATED-1|COORDINATED-2} {CORRELATIVE|CORRELATIVE1|CORRELATIVE-2}
{DISCONTINUOUS|DISCONTINUOUS-1|DISCONTINUOUS-2}
{DISTRIBUTIVE|DISTRIBUTIVE-1|DISTRIBUTIVE-2}
{INDIRECT SPEECH|DIRECT SPEECH}
{IMPERSONAL|PASSIVE}
{ABS-PART}
{MASC|FEM}
{SG|PL}
{SUBJ|OBJ1|OBJ2|OBL|ATTR|APPOS}
D-161
Linea 1.1 - Treebank sintattico-semantica dell'italiano
{REF})
(NP
{SUBJ|OBJ1|OBJ2|OBL|ATTR|TIME|LOCATIVE|MEASURE|APPOS}
{REF|ID}
{COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2} {CORRELATIVE|CORRELATIVE1|CORRELATIVE-2}
{MASC|FEM|NEUT}
{SG|PL}
{P1|P2|P3}
{IDIOM}
{POLITE}
{COORDINATED})
Feature implications:
APPOS > REF
% Null element marks
* only in null subjects
*?* for ellipsed material different from null subjects.
% Predicative Complements
(PRED-COMPL
{REF}
{MASC|FEM}
{SG|PL}
{COORDINATED})
% Prepositional Phrases
(PP
{“pval”}
{LOCATIVDE|TIME|INTERROGATIVE}
{OBJ1|OBJ2|OBL}
{COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2} {CORRELATIVE|CORRELATIVE1|CORRELATIVE-2}
{IDIOM}
{COMPOUND}
{COORDINATED})
*pval= any single or multiword preposition.
% Quantifier Phrases
(QP
{COORDINATED})
% Score
(SCORE)
% Sentences
(S
{IMPERSONAL}
{COORDINATED|CONDITIONAL|CORRELATIVE|DISCONTINUOUS|DISTRIBUTIVE})
% Titles
(TITLE
{SUBJ|OBJ1|OBJ2}
{SG|PL}
{P3}
{COORDINATED})
% Verb Phrases
(VP
{TENSED|UNTENSED}
{PRES|IMPERFECT|FUT|PAST|COND}
{INFINITE|GERUND|PART}
{MASC|FEM}
D-162
Linea 1.1 - Treebank sintattico-semantica dell'italiano
{DISCONTINUOUS|DISCONTINUOUS-1|DISCONTINUOUS-2}
{DISTRIBUTIVE|DISTRIBUTIVE-1|DISTRIBUTIVE-2}
{IND|SUBJUNCTIVE|IMPERATIVE}
{PERFECT|PROGRESSIVE|INCHOATIVE|MODAL|PASSIVE|FUTURE|COPULATIVE|IMPE
RSONAL} {SG|PL}
{P1|P2|P3}
{POLITE}
{COORDINATED})
Una importante caratteristica è determinata dalla presenza del nodo
di VP che domina il nodo V, dove si trova il verbo flesso oppure una
struttura di verbo complesso, come ad esempio in, “deve andare”. Il
nodo di VP contiene anche tutti i complementi e gli aggiunti
verbali; inoltre, eredita tutti i tratti funzionali dal verbo
flesso.
(VP TENSED PRES IND SG P3
(V “<tiene que ir>“ “ir” TENSED PRES IND MODAL SG P3
(AUX “<tiene que>“ “tener que” TENSED PRES IND SG P3) (V “<ir>“ “ir”
UNTENSED INFINITE))
Un’altra importante caratteristica è la presenza di categorie vuote
solo quando sono necessarie all’interpretazione, nello spirito di
LFG, e cioè i soggetti inespressi lessicalmente di frasi a tempo
finito e indefinito, - quindi molto diversamente dalla PT e anche
diversamente da quanto espresso nelle parole degli annotatori:
“5.2 Null elements
We will follow basically the Penn Treebank schema for empty
elements, but
we will only annotate null subjects (*) and ellipsed material (*?*)
such as VP, PP, CL, etc. in coordinations, and also required
objects. We do not mark traces (*T* in the Penn Treebank)”
Riportiamo prima un esempio relativo al soggetto vuoto di una frase
a tempo finito, in cui è possibile vedere l’annotazione dei tratti
funzionali del verbo:
“Regresamos ayer”.
(S
(NP * SUBJ PL P1)
(VP TENSED PRES IND PL P1
(V “<Regresamos>“ “regresar” TENSED PRES IND PL P1)
(ADVP TIME
(ADV “<ayer>“ “ayer”TIME))))
E ora un esempio con un verbo all’infinito in cui viene indicato
l’indice di controllo del soggetto inespresso lessicalmente:
“Juan quiere leer un libro de Chejov”
(S
(NP SUBJ ID-1 SG P3
(N “<Juan>“ “Juan” PROPER SG P3))
(VP TENSED PRES IND SG P3
(V “<quiere>“ “querer” TENSED PRES IND SG P3)
(CL INFINITIVE OBJ1
(NP * SUBJ REF-1)
(VP UNTENSED INFINITE
(V “<leer>“ “leer” UNTENSED INFINITE)
(NP OBJ1
(ART “<un>“ “uno” INDEF MASC SG)
(N “<libro>“ “libro” MASC SG)
D-163
Linea 1.1 - Treebank sintattico-semantica dell'italiano
(PP DE
(PREP “<de>“ “de”)
(NP
(N “<Chejov>“ “Chejov” PROPER))))))))
E’ interessante notare come viene riportato e annotato il materiale
ellittico in una frase coordinata, che a differenza del SC viene
costruita con un nodo di coordinazione più alto con l’elemento
lessicale di coordinazione appeso e due strutture di frase come nodi
fratelli. Il materiale ellittico viene indicato con la marca di
costituenza più un
punto interrogativo tra due asterischi e un indice di riferimento
(V *?* REF-1):
Wall Street retrocedio el 1,44% y Tokio un 2,30%”.
(S COORDINATED
(CL COORDINATED-1
(NP SUBJ SG P3
(N “<Wall Street>“ “Wall Street” PROPER))
(VP TENSED PAST IND SG P3
(V “<retrocedio>“ “retroceder” TENSED PAST IND SG P3 ID-1) (NP OJB1
(ART “<el>“ “el” DEF MASC SG)
(N “<1,44%>“ “catorce coma cuarenta y cuatro por ciento” MASC SG
PCENT))))
(C “<y>“ “y” COORDINATING)
(CL COORDINATED-2
(NP SUBJ SG P3
(N “<Tokio>“ “Tokio” PROPER))
(VP TENSED PAST IND SG P3
(V *?* REF-1)
(NP OBJ1
(ART “<un>“ “un” INDEF MASC SG)
(N “<2,30%>“ “dos coma treinta por ciento” MASC SG PCENT)))))
Un’altra questione interessante riguarda il trattamento
delle
enclitiche
che
richiedono particolare
attenzione.
A
parte
l’introduzione di una feature DISCONTINUOUS e dell’uso dell’indice
di coreferenza che non condividiamo, noi seguiremo la proposta di
Madrid, che quindi riportiamo qui in basso:
5.4 Complex constituents
5.4.1 Postclitics
Clitics
in Spanish can appear before (preclitics) or
after
(postclitics) the
verb. Significatively, preclitics are always separate words (se lo
dio), and postclitics are always joined to the verb (darselo).
Annotating preclitics is not problematic, since they are pronouns,
and therefore NPs. For postclitics we can split the input string
into parts: “dar” “se” “lo”. But we want to show that both, verb and
clitic(s), constitute a compound. We mark this using the following
format:
(VP UNTENSED INFINITE
(V “<darselo>“ “dar” UNTENSED INFINITE #CLITIC DISCONTINUOUS
ID-1
(NP
(P “se” PERS P3 SG DISCONTINUOUS REF-1))
(NP OBJ1
(P “lo” PERS P3 ACC MASC SG DISCONTINUOUS REF-1))))
Non vediamo invece la necessità di spezzare gli amalgami come le
preposizione articolate, che hanno un tag diverso nel nostro corpus
e tutte le informazioni relative all’articolo nelle features.
D-164

Documenti analoghi

F. Mambrini, L`Ancient Greek Dependency Treebank. Un nuovo

F. Mambrini, L`Ancient Greek Dependency Treebank. Un nuovo nozione stessa di ‘testo’, in questa prospettiva, appare problematica. A ben guardare, se la linguistica dei corpora per le lingue contemporanee privilegia l’aspetto sintagmatico, ovvero la sequenz...

Dettagli

Abstracts - Universitetet i Bergen

Abstracts - Universitetet i Bergen Il modo in cui i testi fammentari sono attualmente rappresentati all'interno delle collezioni digitali di testi non solo risulta poco adeguato alla natura stessa dei fammenti, ma corre anche il ris...

Dettagli

Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche

Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche 2 MODALITÀ DI ACQUISIZIONE DEI DIALOGHI ........................................................11 2.1 Modalità di acquisizione: dialoghi macchina/persona .............................................

Dettagli