Il modello lessicale SIMPLE: dal monolingue al bilingue

Transcript

Il modello lessicale SIMPLE:
dal monolingue al bilingue
Nilda Ruimy
Istituto di Linguistica Computazionale
Consiglio Nazionale delle Ricerche
Pisa - Italia
[email protected]
Abstract.
Il modello lessicale PAROLE-SIMPLE ha permesso la realizzazione di lessici
elettronici multilivelli armonizzati per le 12 lingue della CE. Successivamente, nell’ambito
del progetto nazionale italiano ‘Corpora e Lessici dell’Italiano Parlato e Scritto’, è stato
sviluppato il lessico CLIPS utilizzando sia il modello che i dati del lessico italiano PAROLESIMPLE. CLIPS, la cui costruzione si è appena conclusa, rappresenta attualmente la più
vasta risorsa lessicale elettronica dell’italiano. E’ adesso allo studio un progetto di utilizzo di
questo lessico come input per la creazione di una risorsa lessicale elettronica bilingue
italiano-francese. Due scenari alternativi sono al momento in corso di valutazione: 1) il
collegamento semi-automatizzato di due lessici elettronici monolingui basati sullo stesso
modello, i.e. CLIPS ed il lessico francese PAROLE-SIMPLE; 2) la derivazione di un database
lessicale bilingue a partire dal lessico CLIPS e da coppie di sensi corrispondenti IT-FR
estratti da un dizionario bilingue. Questa seconda ipotesi si basa sulla ricerca di correlazioni
tra l’informazione fornita dagli indicatori di senso nelle entrate bilingui e i vari elementi
descrittivi contenuti nel lessico CLIPS.
1. INTRODUZIONE
La necessità di accedere ad ampie
basi di dati lessicali elettroniche è
un’esigenza ormai fortemente sentita
dalla
comunità
scientifica
internazionale. La mancanza di risorse
di
notevoli
dimensioni
e
la
disomogeneità di quelle esistenti - sia in
termini di contenuto informativo che di
formato di rappresentazione - ha infatti
costituito finora un serio ostacolo allo
sviluppo di applicazioni in Tecnologie
del Linguaggio Umano. D’altra parte, la
complessità di creazione dei lessici ed il
loro elevato costo di produzione ha fatto
emergere un crescente interesse per lo
sviluppo di risorse i cui dati lessicali
possano prestarsi a diversi tipi di
utilizzo.
La Comunità Europea ha risposto a
questa duplice esigenza con il
finanziamento
di
un
ambizioso
programma di ricerca svoltosi dal 1995
al 2000 e comprendente tre progetti,
MLAP PP-PAROLE, LE-PAROLE
[13,14] e SIMPLE [6,7,1,15,2,16]
nell’ambito dei quali è stato elaborato
ed implementato un modello teorico e
rappresentazionale per la creazione di
vasti lessici elettronici multilivelli ed
armonizzati per dodici lingue della
Comunità Europea1.
2. IL MODELLO LESSICALE
PAROLE-SIMPLE
Dal punto di vista teorico, il
modello
PAROLE-SIMPLE
trae
1
Il progetto MLAP-PP PAROLE è stato
dedicato alla creazione del modello morfologico
e sintattico del lessico, modello poi
implementato nell’ambito del progetto LEPAROLE con la creazione di lessici morfologici
e sintattici. Nel quadro del progetto SIMPLE
(Semantic Information for Multipurpose
PLurilingual Lexicons) è stato invece disegnato
il modello semantico sulla base del quale i
lessici morfologici e sintattici sono stati
arricchiti con l’aggiunta di un livello di
informazione semantica.
ispirazione da diverse fonti: le
raccomandazioni del progetto EAGLES
[20,21] e il modello GENELEX [3,4]
nonché i risultati dei progetti europei di
semantica lessicale EUROWORDNET
[5], ACQUILEX e DELIS [8]. A livello
semantico, il modello implementa una
versione rivisitata di alcuni aspetti
fondamentali della teoria del lessico
generativo elaborata da J. Pustejovsky
[9,11,12]. Sul piano rappresentazionale
invece, il modello PAROLE-SIMPLE si
avvale di un’estensione del modello
GENELEX2.
Il disegno del modello PAROLESIMPLE ha richiesto particolare
rigorosità per poter soddisfare alle
esigenze di 12 lingue3, consentire
l’espressione di proprietà indipendenti
dai
vari
idiomi,
catturare
generalizzazioni utili per applicazioni di
TLN e permettere che la descrizione
lessicale potesse avvenire a vari livelli
di granularità. Per raggiungere tali
obiettivi, sono stati particolarmente
curati gli aspetti riguardanti la genericità
dell’architettura lessicale, il carattere
esplicito del linguaggio descrittivo
nonché l’uniformità e la coerenza nella
rappresentazione
dell’informazione
linguistica.
Oltre al modello teorico e
rappresentazionale, i dodici lessici
sviluppati nell’ambito dei progetti
PAROLE e SIMPLE condividono
l’ampiezza, la struttura dei dati4, il
vocabolario descrittivo, la metodologia
di lavoro e persino un nucleo di entrate
lessicali,
i
base
concepts
di
5
EuroWordNet .
L’uniformità delle risorse così
sviluppate, oltre a conferire un
2
GENEric LEXicon, GENELEX Consortium, 1993,
1994.
3
e di lingue così diverse come ad esempio lo
svedese, il greco o il portoghese
4
i dodici lessici sono infatti conformi ad
un’unica DTD.
5
i quali sono automaticamente collegabili fra di
loro attraverso il loro legame al EuroWordNet
Interlingual Index
particolare valore al modello lessicale,
garantisce un alto livello di riusabilità
dei dati, non solo in ambito monolingue
ma anche multilingue poiché il modello
è stato concepito in modo da stabilire le
basi per un successivo collegamento fra
i lessici creati per le varie lingue
europee.
3. IL LESSICO CLIPS
In ambito italiano, la necessità di
possedere una vasta risorsa lessicale
nazionale annotata ai vari livelli di
descrizione
linguistica
è
stata
profondamente percepita e ha portato
alla nascita del progetto triennale
‘Corpora e Lessici dell’Italiano Parlato
e Scritto’, finanziato dal Ministero
dell’Università
e
della
Ricerca
Scientifica e Tecnologica. Il progetto,
nato nel 2000, ha avuto come obiettivo
globale la creazione di risorse testuali e
lessicali della lingua italiana, risorse di
natura generica, a larga scala e
riutilizzabili. Parte di questo progetto è
stata dedicata al linguaggio scritto ed in
particolare allo sviluppo di CLIPS, una
base
di
conoscenze
lessicali
informatizzata a carattere flessibile, nel
quadro di una collaborazione tra
L’Istituto
di
Linguistica
Computazionale (ILC) di Pisa6 e la
Thamus7 di Salerno.
Il lessico CLIPS è stato costruito
sulla base del modello e dei dati del
lessico italiano PAROLE-SIMPLE ed è
pertanto perfettamente conforme a
standard internazionali. Nell’ambito del
progetto nazionale suddetto, il modello
lessicale è stato ulteriormente arricchito
con l’aggiunta di un’altro livello di
descrizione
linguistica,
quello
fonologico; è stato inoltre affinato per
6
Istituto del Consiglio Nazionale delle
Ricerche.
7 Consorzio per l’Ingegneria Documentaria
Multilingue.
quanto riguarda il trattamento di alcuni
fenomeni semantici [17,18]. I dati sono
stati ampliati con unità lessicali estratte
dal corpus PAROLE sulla base della
loro frequenza di occorrenza. CLIPS, la
cui costruzione si è appena conclusa,
rappresenta attualmente la più vasta
risorsa lessicale elettronica dell’italiano.
Consta di 55.000 lemmi codificati a
livello fonologico, morfologico e
sintattico nonché di 55.000 entrate
semantiche, che presentano un’ampia
gamma
d’informazioni
molto
strutturate,
granulari
e
spesso
innovative, in particolare per quanto
riguarda la descrizione semantica [19].
3.1. I livelli di descrizione linguistica
Il modulo fonologico rende conto
degli aspetti fonici, fonetici e fonologici
delle forme lessicali, i.e. apertura
vocalica, posizione degli accenti e
pronuncia di suoni tipici dell’italiano. Il
modulo morfologico informa sulla
categoria e sottocategoria grammaticale
delle unità lessicali nonché sul loro
comportamento morfologico in termini
di paradigma flessionale. Il modulo
sintattico descrive il comportamento
funzionale di un’unità morfologica, sia
relativamente alle sue proprietà inerenti
(per i verbi: ausiliare, costruzione
impersonale; per i sostantivi: plurale
obbligatorio, numerabilità; per gli
aggettivi: posizione, ecc.) che a quelle
contestuali
(struttura
argomentale
rappresentata in termini di tratti
caratteristici e restrizioni di ogni
complemento). Il modulo semantico,
che esamineremo più in dettaglio nella
sezione successiva, consente infine di
distinguere ogni senso di un lemma
attraverso una classificazione ontologica
nonché la descrizione della sua
semantica lessicale e del contesto
semantico nel quale esso è coinvolto.
Le informazioni codificate nei vari
livelli descrittivi sono reciprocamente
indipendenti, e tuttavia i quattro moduli
sono correlati tramite i legami che
uniscono, attraverso i livelli, le entrate
corrispondenti. Un’entrata completa può
quindi essere catturata in una
progressione attraverso i vari livelli
d’informazione.
3.2. il livello semantico
A livello semantico, il lessico è
strutturato sulla base dell’ontologia
SIMPLE-CLIPS8 che consiste in un
insieme di 157 tipi semantici
indipendenti sia da lingue specifiche che
da domini di applicazione. Questo
sistema di tipi, disegnato in modo
consensuale nell’ambito del progetto
SIMPLE, ha consentito di rappresentare
la conoscenza lessicale delle varie
lingue europee. Esso possiede inoltre la
notevole
caratteristica
di
essere
strutturato non solo in base alla
relazione gerarchica di iperonimia,
come gran parte delle ontologie
tradizionali, ma
anche secondo
relazioni concettuali di tipo non
gerarchico, secondo il principio
dell’eredità ortogonale [10]. E’ quindi
composto sia da tipi semplici o
unidimensionali che da tipi unificati o
pluridimensionali.
Nell’ontologia
SIMPLE-CLIPS, un tipo semantico non
rappresenta soltanto una semplice
etichetta, bensì un insieme strutturato di
proprietà definitorie. Assegnare un tipo
semantico ad un’unità lessicale equivale
quindi ad attribuirle l’insieme delle
proprietà semantiche specifiche di quel
tipo.
Nell’ambito dei progetti SIMPLE e
CLIPS, l’assegnazione ad un’unità
lessicale dei tratti semantici che la
caratterizzano è stato facilitata grazie
all’uso di templates. Un template è una
struttura schematica contenente un
nucleo
di
proprietà
semantiche
specifiche di un tipo semantico. I
templates
costituiscono
perciò
un’interfaccia tra ontologia e lessico e
guidano il processo di codifica fornendo
8
cf. http://www.ilc.cnr.it/clips/Ontology.htm
al lessicografo, non appena egli ha
deciso la classificazione ontologica di
un’unità semantica, l’insieme delle
proprietà e restrizioni da istanziare (e
specificare dal punto di vista lessicale)
nella
sua
descrizione.
Questa
metodologia di codifica guidata dai
templates garantisce uniformità e
coerenza della descrizione semantica,
facilitando quindi l’aggiornamento, il
recupero e la riusabilità dei dati.
Nel
modello
SIMPLE-CLIPS,
un’unità semantica è dotata di un
insieme di informazioni riguardanti un
largo spettro di aspetti semantici e che
forniscono una rappresentazione molto
fine della sua semantica lessicale. I
mezzi di espressione dell’informazione
sono due, i.e. relazioni tra unità
semantiche e tratti semantici. Il grado di
rilevanza di ogni singola informazione
nella definizione di un tipo semantico e pertanto delle unità semantiche che vi
appartengono - è inoltre segnalato da un
attributo di ponderazione. Un’entrata
semantica
viene
quindi
definita
attraverso
i
seguenti
tipi
d’informazione:

9
appartenenza ad un tipo semantico
esplicitamente posizionato nella
gerarchia dei tipi;
dominio d’uso dell’unità semantica;
classe semantica9;
frase esemplificativa;
per le unità che denotano un evento,
il tipo di evento, i.e. stato, processo
o transizione;
particolari tratti semantici distintivi;
appartenenza ad una classe di
polisemia logica;
relazione di sinonimia, in particolare
per gli aggettivi;
relazione
di
derivazione
morfosintattica;
espressione, per mezzo della
Extended Qualia Structure, dei
che situa l’unità lessicale all’interno del
sistema di classi semantiche di LEXIQUEST.

diversi elementi di sensi che
coesistono nella semantica lessicale
di un senso;
nucleo d’informazioni specifiche
riguardanti la rappresentazione
predicativa delle entrate predicative
e comprendenti:
o l’assegnazione di un predicato
lessicale ed indicazione del tipo
di legame esistente tra predicato
e unità semantica;
o la descrizione degli argomenti
del predicato in termini di arità,
ruolo semantico e restrizioni - o
meglio preferenze - di selezione.
correlazione tra i livelli sintattico e
semantico attraverso la proiezione
della struttura argomentale sul
quadro di sottocategorizzazione
sintattica, con un raffinato sistema di
coindicizzazione tra argomenti
semantici e complementi sintattici10.
E’ opportuno soffermarci ora su un
aspetto particolarmente interessante ed
innovativo del lessico CLIPS: la
Extended Qualia Structure.
La Extended Qualia Structure è
stata ideata nell’ambito del progetto
SIMPLE [6] sulla base dalla Qualia
Structure (o Struttura dei Qualia) che
rappresenta, nella teoria del Lessico
Generativo, uno dei quattro componenti
della rappresentazione semantica11. La
Qualia Structure permette di strutturare,
attraverso quattro ruoli, i diversi
componenti
di
significato
che
coesistono nella semantica lessicale di
un senso. Il ruolo formale caratterizza
l’entità denotata rispetto alle altre; il
ruolo costitutivo, descrive le sue
proprietà metonimiche (costituzione
interna o parte costituenti); il ruolo
10
Da notare in questo contesto come
l’istanziazione dei ruoli semantici consenta di
mettere in relazioni strutture che differiscono
solo per la realizzazione sintattica degli
argomenti.
11
insieme a type structure, argument structure,
event structure.
agentivo ne indica l’origine e il ruolo
telico, la funzione12.
Nel modello SIMPLE, si è ritenuto
necessario
rinforzare
il
potere
espressivo di questo linguaggio formale
per potenziare la ricchezza e granularità
dell’informazione che veicola. Per
ognuno dei quattro ruoli è stato quindi
disegnato un insieme di sottotipi i quali
costituiscono ovviamente un mezzo
d’informazione
più
specifico.
Permettono, da un lato, di dare una
rappresentazione molto più fine delle
varie dimensioni concettuali contenute
in un’unità lessicale; dall’altro, di
descrivere in modo più preciso la natura
delle relazioni semantiche che queste
unità intrattengono. Oltre ad indicare
composizione, origine e funzione, la
Extended Qualia consente in effetti di
precisare, attraverso relazioni tra unità
semantiche, il tipo di composizione,
origine e funzione. Ad esempio,
all’interno delle informazioni di tipo
costitutivo: senatore ‘is_a_member_of’
senato vs. manubrio ‘is_a_part_of’
bicicletta; nel ruolo agentivo: edificio
‘created_by’ costruire vs. mohair
‘derived_from’ capra; nel ruolo telico:
metano ‘used_as’ combustibile vs.
cazzuola ‘used_by’ muratore.
elaborati secondo gli stessi principi. Il
secondo ipotizza invece la derivazione
di un database lessicale bilingue
attraverso
il
confronto
e
la
combinazione
delle
informazioni
contenute nel database monolingue
CLIPS con quelle di un normale
dizionario bilingue.
La lingua obiettivo prescelta per
attuare questo studio di fattibilità è stata
il francese. E’ tuttavia opportuno
precisare che le metodologie proposte
sono entrambe applicabili ad altre
coppie di lingue.
4.1. I due scenari
Ultimata la costruzione di CLIPS, si
è pensato di utilizzare questo lessico
come punto di partenza per la creazione
di una risorsa lessicale elettronica
bilingue. E’ stato quindi avviato uno
studio di fattibilità nel quale sono
attualmente in corso di valutazione due
scenari alternativi.
Il primo prevede di ottenere un
dizionario bilingue attraverso il
collegamento
delle
informazioni
contenute in due lessici monolingui
4.1.1. Prima ipotesi di lavoro
I vari lessici europei PAROLE e
SIMPLE, lo abbiamo sottolineato
precedentemente, condividono modello
e contenuto informativo; CLIPS, quale
ampliamento dell’istanziazione italiana
di questi lessici, rispecchia naturalmente
queste caratteristiche. La prima ipotesi
di lavoro, nata da uno studio di
fattibilità realizzato al GILCUB di
Barcellona13, intende precisamente
sfruttare il carattere armonizzato delle
risorse monolingui sviluppate a partire
dal modello PAROLE-SIMPLE per
stabilire un collegamento semiautomatico tra i dati contenuti in due di
quei lessici.
La prima fase di lavoro prevede
l’estrazione da CLIPS delle entrate
lessicali di un insieme di lemmi
selezionati in base alla loro frequenza
d’uso. Le coppie bilingui in cui
compaiono questi lemmi italiani - tanto
come Lingua Sorgente (LS) che come
Lingua Obiettivo (LO) - vengono poi
ricercate in un dizionario IT-FR FR-IT
in versione CDrom. Dal lessico
SIMPLE-FR vengono estratte le entrate
lessicali dei lemmi francesi membri
delle coppie bilingui. Ciascun lemma di
una coppia viene così abbinato alla sua,
o, più frequentemente, alle sue
descrizioni
semantiche.
12
13
4. IL LESSICO BILINGUE
The Generative Lexicon, chap. 6, p.100
cf. M. Villegas et al. 2000.
Successivamente, si procede alla messa a
punto di un algoritmo finalizzato a
stabilire le corrette corrispondenze tra
unità semantiche IT e FR mediante 1)
l’analisi dell’informazione contenuta
nelle
rispettive
entrate
lessicali
monolingui e 2) la valutazione della loro
compatibilità (cf. fig. 1).
DIZIONARIO
BILINGUE
IT-FR
FR-IT
ALGORITMO
SIMPLE FR
CLIPS
capo
capo….
ufficio…
gentile…
residenza
tessere…
pompa…
scrivere..
tête
xxx
yyy
zzz
tête
chef
bout
ufficio
xxx
yyy
capo_1
bureau
charge
xxx
yyy
zzz
www
testa
capo
faccia
cima
capo_2
?
…
bureau
xxx
fon..
morf.
sin
sem
?
ufficio
i i
ufficio_1
….
tête _1
fon..
morf.
sin
sem
tête _2
…
?
tête _3
…
bureau 1
Fig.1. Riepilogo dello scenario I: parallelizzazione di due lessici armonizzati
L’informazione lessicale di cui si
valuta la compatibilità è di due tipi14:
le proprietà inerenti ai due sensi:
¾ identità di classificazione ontologica
o relazione di sussunzione tra il tipo
semantico dell’entrata di
LS e
quella di LO
¾ identità di classe semantica o
relazione di sussunzione tra la classe
semantica dell’entrata di LS e quella
di LO
¾ identità di dominio o relazione di
sussunzione
tra
il
dominio
dell’entrata di LS e quello di LO
¾ identità / corrispondenza di tratti
semantici
¾ identità / corrispondenza di relazioni
semantiche
proprietà contestuali dei due sensi:
¾ compatibilità
di
valenza
sintattica
¾ funzione
e
istanziazione
grammaticale dei complementi
14
cf. Villegas et al. 2000.
¾ compatibilità
di
valenza
semantica
¾ ruolo semantico e restrizioni
semantiche degli argomenti
Un studio preliminare effettuato su un
piccolo insieme di unità semantiche dei
lessici monolingui che corrispondono a
coppie di parole indicate dal bilingue
come rispettive traduzioni ha consentito
di stabilire una prima casistica di
situazioni incontrate in fatto di
compatibilità di proprietà inerenti.
Alcuni casi tipici vengono illustrati di
seguito:
evento
évènement
Freedefinition=”cio' che e' accaduto o potra' Freedefinition="something that happens at a
accadere, avvenimento”
given place and time"
Semantic type: EVENT
Semantic type: EVENT
Supertype: ENTITY
Supertype: ----Semantic class: EVENT
Semantic class: EVENT
Identità di tipo semantico e classe semantica
scrivere
Freedefinition=”creare qualcosa di scritto”
Semantic type: SYMBOLIC_CREATION
Supertype: CREATION
Semantic class: CREATION
Domain: CREATIVE_WRITING
écrire
Freedefinition=”create written works & semi”
Semantic type: CREATION
Supertype: ----Semantic class: CREATION
Domain: ----
Relazione di sussunzione tra i tipi semantici, identità di classe semantica
tessere
tisser
Semantic type: PHYSICAL_CREATION
Supertype: CREATION
Semantic class: CREATION
Domain: TEXTILES
Sem. Rel.: Resulting_state: tessuto
Semantic type: CREATION
Supertype: ----Semantic class: CREATION
Domain: ---Sem. Rel.: Resulting_state: tissu
Relazione di sussunzione tra i tipi semantici, identità di classe semantica, identità di
relazione semantica
tessuto
Semantic type: ARTIFACTUAL_MATERIAL
UnficationPath:ConcreteEntityArtifactagentive Materialtelic
Semantic class: MATTER
Domain: TEXTILES
Distintive feature: -----
tissu
Semantic type: ARTIFACT
UnificationPath:----Semantic class: MATTER
Domain: TEXTILES
Distintive feature: PLUS_ELABORATE
Relazione di sussunzione tra i tipi semantici, identità di classe semantica, identità di
dominio
vincere
Freedefinition=”portare
a
termine
successo”
Semantic type: RELATIONAL_ACT
Semantic class: ACTIVITY
Sem. Rel.:---Predicate_vincere_1
vaincre
con Freedef.=”be the winner in contest/competition”
Semantic type: CAUSE_RELAT.-CHANGE
Semantic class: CHANGE
Sem. Rel.: Resulting_action/state: victoire
Agentive_cause:cause
Predicate_vaincre_3
Divergenza di tipo semantico e di classe semantica, divergenza di relazioni
semantiche. Ricorso all’analisi di compatibilità delle informazioni contestuali ed in
particolare quelle riguardanti gli argomenti del predicato semantico.
4.1.2. Seconda ipotesi di lavoro
Il secondo scenario attualmente
sottoposto a valutazione ipotizza
invece la derivazione di un database
lessicale bilingue a partire da due fonti:
il lessico CLIPS e un dizionario
bilingue IT-FR in versione CDrom.
Questa ipotesi di lavoro è basata
sulla ricerca di correlazioni tra
l’informazione fornita dagli indicatori
di senso nelle entrate bilingui e i vari
elementi descrittivi contenuti nel
lessico CLIPS. Gli indicatori di senso,
lo ricordiamo, sono quei commenti
che, in un buon dizionario bilingue,
seguono l’unità lessicale di lingua
sorgente e fungono da indizio o
restrizione per guidare l’utente nella
scelta della traduzione più appropriata.
Nell’ambito del progetto ISLE, essi
sono stati suddivisi in due grandi
classi15:
indicatori portatori di informazione
di tipo contestuale (cf. tab.1): es.
soggetto od oggetto tipico,
argomento del verbo base per le
nominalizzazioni,
aggettivo
modificatore, nome tipicamente
modificato, tipo di sintagma
preposizionale, ecc.
indicatori portatori di informazione
di tipo inferenziale (cf. tab.2): es.
sinonimi, antonimi, iperonimi,
iponimi, meronimi, indicatori di
sottotipo di lingua: dominio d’uso,
dominio inferito, livello di lingua,
stile, ecc.
Italiano–francese
COVARE
Italiano–francese
sogg. tipico
A. v.tr.
1 (di uccelli) [dar calore col proprio corpo alle
uova per sviluppare l’embrione] couver
2 (fig.) [custodire con gelosia] couver
3 (fig.)[nutrire, alimentare in segreto dentro di
cl. verbale
sé] nourrir, mijoter
[tramare, macchinare in segreto] couver
[incubare] couver: covare un malanno
B. v.intr. (aus. avere)(fig.)[stare chiuso, nascosto]
couver: il fuoco cova sotto la cenere
ausiliare
Tab .1. Indicatori di senso di tipo contestuale
CAPO
sinonimo
iperonimo
I (persone)
1 [testa] tête
2 (fig.) [mente, intelligenza] tête
3 [persona investita di comando, di potere] chef
II (animali)
1 (raro) -> testa
2 spec. al plur [ciascun individuo di una specie
determinata] têtes, pièces
sinonimo
III (cose)
1 [la parte più grossa e più sporgente di
un oggetto] tête
2 [la parte più alta] haut
3 [ciascuna delle due estremità di qlco.] bout, tête
4 [inizio, principio] début
5 [fine, conclusione; sbocco] bout
6 loc. …..
dominio d’uso
7 (nei filati) fil
8 [singolo oggetto appartenente ad una serie]
pièce
9 (géog.) cap
Tab .2. Indicatori di senso di tipo inferenziale16
15
16
S. Atkins e P. Bouillon, 2002.
Dizionario Robert & Signorelli
La prima fase di questa strategia di
lavoro prevede l’estrazione da CLIPS di
un consistente nucleo di entrate
rappresentative, scelte in base a criteri di
frequenza dei lemmi, bilanciamento di
categorie grammaticale e polisemia di
sensi. Parallelamente, i sensi indicatori
più ricorrenti vengono estratti dal
dizionario bilingue IT-FR e sottoposti
ad analisi. Si individuano quindi le
possibili corrispondenze tra i due tipi
d’informazioni estratte: quelle fornite
dalle varie classi d’indicatori di sensi e
quelle contenute nelle entrate di CLIPS
(tab.3).
Italiano–francese
CAPO
sin.=> t.s. BODY PART
+mental
I (persone)
1 [testa] tête
2 (fig.) [mente, intelligenza] tête
3 [persona investita di comando, di potere] chef
II (animali)
iper. => t.s. ROLE
1 (raro) -> testa
2 spec. al plur [ciascun individuo di una specie
determinata] têtes, pièces
sinonimo
t.s. PART;
+part
III (cose)
1 [la parte più grossa e più sporgente di
un oggetto] tête
2 [la parte più alta] haut
3 [ciascuna delle due estremità di qlco.] bout, tête
4 [inizio, principio] début
5 [fine, conclusione; sbocco] bout
6 loc. …..
dom. Textiles
7 (nei filati) fil
8 [singolo oggetto appartenente ad una serie] pièce
dom. Geography
9 (géog.) cap
Tab. 3. Corrispondenze tra indicatori di senso e info. CLIPS
Una
volta
stabilite,
queste
correlazioni vengono formalizzate in un
insieme di regole di corrispondenze.
L’attivazione dell’algoritmo di regole ha
lo scopo di consentire, in presenza di
una tripla: [sensoLS-(indicatore di
senso)-sensoLO]17,
la
corretta
identificazione dell’entrata semantica di
CLIPS pertinente per il senso italiano
della coppia bilingue. Ad esempio, nella
tripla: [capo – (persona investita di
comando, di potere) – chef], la parola
‘persona’, in quanto genus di una minidefinizione, viene interpretata come un
probabile
iperonimo.
L’algoritmo
ricercherà quindi tra le entrate lessicali
del lemma capo quella in cui il target
della relazione formale ‘isa’ è l’unità
17
e naturalmente purché quel preciso indicatore
di senso sia contemplato dall’algoritmo.
semantica persona. Il risultato sarà
l’abbinamento dell’entrata lessicale di
CLIPS a cui è assegnato il tipo
semantico “Role” al senso LS della
tripla [capo: USem3615capo – (persona
investita di comando, di potere) – chef].
Il senso francese della coppia
bilingue essendo un equivalente del
senso italiano, appare ragionevole
ipotizzare che possa condividere le
proprietà semantiche dell’entrata di
CLIPS. Il database lessicale bilingue
così generato comprenderà quindi
coppie di sensi bilingui che condividono
una rappresentazione semantica. In un
primo tempo, la condivisione sarà
limitata alle informazioni espresse in
termini di tratti semantici (i.e. tipo
semantico, supertipo, classe semantica,
tratto semantico distintivo); in un
secondo tempo, una volta completato il
processo di correlazione fra i sensi,
potranno essere condivise anche le
informazioni espresse in termini di
CLIPS
capo
ufficio
gentile
residenza
tessere
pompa
scrivere
relazioni fra unità semantiche (i.e. il
contenuto della Extended Qualia
Structure).
DATABASE
LESSICALE
BILINGUE
DIZIONARIO
BILINGUE
IT-FR
FR-IT
capo
xxx
tête
yyy
chef
zzz
bout
ufficio
xxx bureau
yyy charge
capo_1 wx tête_1
semantic_type: BODY_PART
…
capo_2 wx chef_3
semantic_type: ROLE
…
tête
xxx
yyy
zzz
www
testa
capo
faccia
cima
bureau
xxx
ufficio
yyy scrivania
ufficio_1 wx bureau_2
semantic_type: BUILDING
…
ufficio_2 wx bureau_4
sem._type: HUMAN_GROUP
…
Fig.2. Riepilogo dello scenario II: metodo basato sugli indicatori di senso
5. CONCLUSIONE
Nonostante lo studio di fattibilità sia
ancora in atto è tuttavia possibile
scorgere alcuni dei possibili vantaggi e
svantaggi delle due metodologie
proposte per la derivazione di una
risorsa lessicale bilingue a partire da un
lessico monolingue.
Mettere in parallelo due lessici
monolingui creati secondo lo stesso
modello, come illustrato nella prima
proposta, presenta indubbiamente dei
vantaggi in termini di uniformità di
trattamento dei fenomeni linguistici.
La
codifica
template-driven
adottata dal modello SIMPLE offre
inoltre ulteriori garanzie di omogeneità
e
coerenza
di
rappresentazione
dell’informazione semantica attraverso i
vari lessici. La ricchezza di dettagli
nella descrizione della conoscenza
lessicale è poi tale da permettere di
sopperire a discrepanze dovute sia alla
soggettività del lessicografo che ad una
consapevole scelta di granularità
descrittiva diversa. D’altra parte, la
parallelizzazione dei lessici equivale in
pratica ad un controllo incrociato dei
loro dati e quindi fornisce un feedback
che potrebbe essere utile per
un’eventuale fase di correzioni a livello
monolingue, correzioni riguardanti sia
errori di classificazione ontologica o di
assegnazione di proprietà semantiche
che mancanza di sensi o addirittura di
lemmi. Altro vantaggio a livello
monolingue potrebbe essere l’unione
delle
informazioni
complementari
contenute nei due database lessicali.
Per quanto riguarda gli svantaggi di
questa prima proposta, il primo è dovuto
alla disparità di copertura lessicale tra i
due lessici. Infatti, questo metodo è
applicabile solo ai 10.000 sensi che
costituiscono il lessico SIMPLE
francese e pertanto i 45.000 sensi
italiani
restanti
dovranno
obbligatoriamente essere trattati con il
secondo metodo. Per i 10.000 sensi
trattabili,
un
processo
di
disambiguazione manuale dovrebbe
comunque intervenire nei casi in cui non
esista nessun elemento corrispondente
nelle descrizioni di LS e LO. Una totale
discrepanza potrebbe essere dovuta o ad
un errore vero e proprio di codifica
oppure all’aver privilegiato, tra le varie
dimensioni del significato di un’unità
lessicale, uno degli aspetti rispetto ad un
altro, come ad esempio nelle entrate di
imprigionare e emprisonner, in cui i
lessicografi hanno tenuto in maggior
considerazione rispettivamente il punto
di vista dell’agente e del paziente,
assegnando alle entrate il tipo semantico
‘purpose_act’ per il primo, e
‘cause_relational_change’
per
il
secondo.
Per quanto concerne la seconda
ipotesi di lavoro in cui vengono
utilizzate informazioni monolingui
italiane e indicatori di sensi, il primo
vantaggio è che, non essendo legato ad
un secondo lessico monolingue, il
metodo può teoricamente essere
applicato ai 55.000 lemmi di CLIPS.
Uno svantaggio, invece è la mancanza
d’informazione sintattica per le unità
lessicali francesi, mentre, con la prima
proposta, ogni entrata semantica di
SIMPLE-FR è legata, nel lessico
PAROLE-FR, alla sua descrizione
sintattica.
La decisione finale riguardo al
metodo da adottare per la derivazione di
una risorsa lessicale bilingue sarà
naturalmente basata su una valutazione
dei risultati ottenuti con ognuno dei due
metodi su un campione di 500 lemmi.
BIBLIOGRAFIA
[1] Busa, F., Calzolari, N., Lenci, A.
(2001), Generative Lexicon and the
SIMPLE Model; Developing Semantic
Resources for NLP, in Bouillon P. and
Busa F. (eds.), The Language of Word
Meaning, Cambridge University Press,
pp. 333-349.
[2] Calzolari, N., Lenci A., Zampolli A.
(2003), SIMPLE: Plurilingual Semantic
Lexicons for Natural Language
Processing,
in
Linguistica
Computazionale, Giardini Editori, Pisa.
[3] Genelex Consortium (1993),
EUREKA Project GENELEX - Report
of Syntactic Layer, 4.0., GsiErli.
[4] Genelex Consortium (1994),
EUREKA Project GENELEX - Report
of Semantic Layer, 2.1., GsiErli.
[5] IDE N., GREENSTEIN D., VOSSEN P.
(eds.), Special Issue on EuroWordNet,
in Computers and the Humanities,
XXXII (1998).
[6] Lenci et al, Linguistic Specifications,
Simple WorkPackage 2, Deliverable
D2.1,
March2000.
http://www.ub.es/gilcub/SIMPLE/simpl
e.html - Specifications
[7] Lenci, A., Bel N., Busa F., Calzolari
N., Gola E., Monachini M., Ogonowsky
A., Peters I., Peters W., Ruimy N.,
Villegas M., Zampolli A. (2000).
SIMPLE: A General Framework for the
Development of Multilingual Lexicons,
in
International
Journal
of
Lexicography, Vol. 13, n° 4, Oxford
University Press.
[8] Monachini M., Roventini A., Alonge
A., Calzolari N., Corazzari O. (1994),
Linguistic Analysis of Italian Perception
and Speech Act Verbs, in N. OSTLER
(ed.), DELIS Deliverable, D-II, Pisa and
London.
[9] Pustejovsky J. (1991), The
Generative Lexicon, in Computational
Linguistics, 17 (4), 409-441.
[10] Pustejovsky J., Boguraev B. (1993),
Lexical Knowledge Representation and
Natural Language Processing, Artificial
Intelligence 63, 193-223.
[11] Pustejovsky J. (1995), The
Generative Lexicon, The MIT Press,
Cambridge, MA.
[12] Pustejovsky J. (1998), Specification
of a Top Concept Lattice, Brandeis
University.
[13] Ruimy N., Corazzari O., Gola E.,
Spanu A., Calzolari N., Zampolli A.
(1998), The European LE-PAROLE
project: The Italian Syntactic LEXICON First International Conference on
Language Resources and Evaluation ELRA Proceedings, Granada, vol. 1,
241-248.
[14] Ruimy N., Corazzari, O., Gola, E.,
Spanu, A., Calzolari, N., Zampolli, A.
(2003), The Parole Model And The
Italian Syntactic Lexicon, in Linguistica
Computazionale, Giardini Editori, Pisa
[15] Ruimy N., Gola E., Monachini M.
(2001), Lexicography Informs Lexical
Semantics: the SIMPLE Experience, in
Bouillon P. and Busa F. (eds.), The
Language
of
Word
Meaning,
Cambridge University Press, 350-362.
[16] Ruimy N., Monachini M., Gola E.,
Calzolari N., Del Fiorentino M.C.,
Ulivieri M., Rossi S. (2003): A
Computational Semantic Lexicon of
Italian: SIMPLE, in Linguistica
Computazionale, Giardini Editori, Pisa.
[17] Ruimy N., Monachini M., Calzolari
N. (2001), Specifiche Linguistiche e
Manuale di Codifica - Livello Sintattico,
versione preliminare, CLIPS-WP5, Pisa.
[18] Ruimy N., Monachini M., Calzolari
N. (2001). Specifiche Linguistiche e
Manuale di Codifica - Livello
Semantico,
versione
preliminare,
CLIPS-WP5, Pisa.
[19] Ruimy N., Monachini M., Distante
R., Guazzini E., Molino S., Ulivieri M.,
Calzolari N., Zampolli A. (2002), CLIPS,
a Multi-level Italian Computational
Lexicon, Third International Conference
on Language Resources and Evaluation
Proceedings, Vol. III, Las Palmas de
Gran Canaria, Spain, 792-799.
[20]
Sanfilippo
A.
et
al.,
Subcategorization Standards, Report of
the Eagles/Lexicon/Syntax Group, 1996.
[21] Sanfilippo A., Calzolari N.,
Ananiadou S., Gaizauskas R., SaintDizier P., Vossen P. (eds.) (1999).
Preliminary
Recommendations
on
Lexical Semantic Encoding. EAGLES
LE3-4244 Final Report.