Il modello lessicale SIMPLE: dal monolingue al bilingue
Transcript
Il modello lessicale SIMPLE: dal monolingue al bilingue
Il modello lessicale SIMPLE: dal monolingue al bilingue Nilda Ruimy Istituto di Linguistica Computazionale Consiglio Nazionale delle Ricerche Pisa - Italia [email protected] Abstract. Il modello lessicale PAROLE-SIMPLE ha permesso la realizzazione di lessici elettronici multilivelli armonizzati per le 12 lingue della CE. Successivamente, nell’ambito del progetto nazionale italiano ‘Corpora e Lessici dell’Italiano Parlato e Scritto’, è stato sviluppato il lessico CLIPS utilizzando sia il modello che i dati del lessico italiano PAROLESIMPLE. CLIPS, la cui costruzione si è appena conclusa, rappresenta attualmente la più vasta risorsa lessicale elettronica dell’italiano. E’ adesso allo studio un progetto di utilizzo di questo lessico come input per la creazione di una risorsa lessicale elettronica bilingue italiano-francese. Due scenari alternativi sono al momento in corso di valutazione: 1) il collegamento semi-automatizzato di due lessici elettronici monolingui basati sullo stesso modello, i.e. CLIPS ed il lessico francese PAROLE-SIMPLE; 2) la derivazione di un database lessicale bilingue a partire dal lessico CLIPS e da coppie di sensi corrispondenti IT-FR estratti da un dizionario bilingue. Questa seconda ipotesi si basa sulla ricerca di correlazioni tra l’informazione fornita dagli indicatori di senso nelle entrate bilingui e i vari elementi descrittivi contenuti nel lessico CLIPS. 1. INTRODUZIONE La necessità di accedere ad ampie basi di dati lessicali elettroniche è un’esigenza ormai fortemente sentita dalla comunità scientifica internazionale. La mancanza di risorse di notevoli dimensioni e la disomogeneità di quelle esistenti - sia in termini di contenuto informativo che di formato di rappresentazione - ha infatti costituito finora un serio ostacolo allo sviluppo di applicazioni in Tecnologie del Linguaggio Umano. D’altra parte, la complessità di creazione dei lessici ed il loro elevato costo di produzione ha fatto emergere un crescente interesse per lo sviluppo di risorse i cui dati lessicali possano prestarsi a diversi tipi di utilizzo. La Comunità Europea ha risposto a questa duplice esigenza con il finanziamento di un ambizioso programma di ricerca svoltosi dal 1995 al 2000 e comprendente tre progetti, MLAP PP-PAROLE, LE-PAROLE [13,14] e SIMPLE [6,7,1,15,2,16] nell’ambito dei quali è stato elaborato ed implementato un modello teorico e rappresentazionale per la creazione di vasti lessici elettronici multilivelli ed armonizzati per dodici lingue della Comunità Europea1. 2. IL MODELLO LESSICALE PAROLE-SIMPLE Dal punto di vista teorico, il modello PAROLE-SIMPLE trae 1 Il progetto MLAP-PP PAROLE è stato dedicato alla creazione del modello morfologico e sintattico del lessico, modello poi implementato nell’ambito del progetto LEPAROLE con la creazione di lessici morfologici e sintattici. Nel quadro del progetto SIMPLE (Semantic Information for Multipurpose PLurilingual Lexicons) è stato invece disegnato il modello semantico sulla base del quale i lessici morfologici e sintattici sono stati arricchiti con l’aggiunta di un livello di informazione semantica. ispirazione da diverse fonti: le raccomandazioni del progetto EAGLES [20,21] e il modello GENELEX [3,4] nonché i risultati dei progetti europei di semantica lessicale EUROWORDNET [5], ACQUILEX e DELIS [8]. A livello semantico, il modello implementa una versione rivisitata di alcuni aspetti fondamentali della teoria del lessico generativo elaborata da J. Pustejovsky [9,11,12]. Sul piano rappresentazionale invece, il modello PAROLE-SIMPLE si avvale di un’estensione del modello GENELEX2. Il disegno del modello PAROLESIMPLE ha richiesto particolare rigorosità per poter soddisfare alle esigenze di 12 lingue3, consentire l’espressione di proprietà indipendenti dai vari idiomi, catturare generalizzazioni utili per applicazioni di TLN e permettere che la descrizione lessicale potesse avvenire a vari livelli di granularità. Per raggiungere tali obiettivi, sono stati particolarmente curati gli aspetti riguardanti la genericità dell’architettura lessicale, il carattere esplicito del linguaggio descrittivo nonché l’uniformità e la coerenza nella rappresentazione dell’informazione linguistica. Oltre al modello teorico e rappresentazionale, i dodici lessici sviluppati nell’ambito dei progetti PAROLE e SIMPLE condividono l’ampiezza, la struttura dei dati4, il vocabolario descrittivo, la metodologia di lavoro e persino un nucleo di entrate lessicali, i base concepts di 5 EuroWordNet . L’uniformità delle risorse così sviluppate, oltre a conferire un 2 GENEric LEXicon, GENELEX Consortium, 1993, 1994. 3 e di lingue così diverse come ad esempio lo svedese, il greco o il portoghese 4 i dodici lessici sono infatti conformi ad un’unica DTD. 5 i quali sono automaticamente collegabili fra di loro attraverso il loro legame al EuroWordNet Interlingual Index particolare valore al modello lessicale, garantisce un alto livello di riusabilità dei dati, non solo in ambito monolingue ma anche multilingue poiché il modello è stato concepito in modo da stabilire le basi per un successivo collegamento fra i lessici creati per le varie lingue europee. 3. IL LESSICO CLIPS In ambito italiano, la necessità di possedere una vasta risorsa lessicale nazionale annotata ai vari livelli di descrizione linguistica è stata profondamente percepita e ha portato alla nascita del progetto triennale ‘Corpora e Lessici dell’Italiano Parlato e Scritto’, finanziato dal Ministero dell’Università e della Ricerca Scientifica e Tecnologica. Il progetto, nato nel 2000, ha avuto come obiettivo globale la creazione di risorse testuali e lessicali della lingua italiana, risorse di natura generica, a larga scala e riutilizzabili. Parte di questo progetto è stata dedicata al linguaggio scritto ed in particolare allo sviluppo di CLIPS, una base di conoscenze lessicali informatizzata a carattere flessibile, nel quadro di una collaborazione tra L’Istituto di Linguistica Computazionale (ILC) di Pisa6 e la Thamus7 di Salerno. Il lessico CLIPS è stato costruito sulla base del modello e dei dati del lessico italiano PAROLE-SIMPLE ed è pertanto perfettamente conforme a standard internazionali. Nell’ambito del progetto nazionale suddetto, il modello lessicale è stato ulteriormente arricchito con l’aggiunta di un’altro livello di descrizione linguistica, quello fonologico; è stato inoltre affinato per 6 Istituto del Consiglio Nazionale delle Ricerche. 7 Consorzio per l’Ingegneria Documentaria Multilingue. quanto riguarda il trattamento di alcuni fenomeni semantici [17,18]. I dati sono stati ampliati con unità lessicali estratte dal corpus PAROLE sulla base della loro frequenza di occorrenza. CLIPS, la cui costruzione si è appena conclusa, rappresenta attualmente la più vasta risorsa lessicale elettronica dell’italiano. Consta di 55.000 lemmi codificati a livello fonologico, morfologico e sintattico nonché di 55.000 entrate semantiche, che presentano un’ampia gamma d’informazioni molto strutturate, granulari e spesso innovative, in particolare per quanto riguarda la descrizione semantica [19]. 3.1. I livelli di descrizione linguistica Il modulo fonologico rende conto degli aspetti fonici, fonetici e fonologici delle forme lessicali, i.e. apertura vocalica, posizione degli accenti e pronuncia di suoni tipici dell’italiano. Il modulo morfologico informa sulla categoria e sottocategoria grammaticale delle unità lessicali nonché sul loro comportamento morfologico in termini di paradigma flessionale. Il modulo sintattico descrive il comportamento funzionale di un’unità morfologica, sia relativamente alle sue proprietà inerenti (per i verbi: ausiliare, costruzione impersonale; per i sostantivi: plurale obbligatorio, numerabilità; per gli aggettivi: posizione, ecc.) che a quelle contestuali (struttura argomentale rappresentata in termini di tratti caratteristici e restrizioni di ogni complemento). Il modulo semantico, che esamineremo più in dettaglio nella sezione successiva, consente infine di distinguere ogni senso di un lemma attraverso una classificazione ontologica nonché la descrizione della sua semantica lessicale e del contesto semantico nel quale esso è coinvolto. Le informazioni codificate nei vari livelli descrittivi sono reciprocamente indipendenti, e tuttavia i quattro moduli sono correlati tramite i legami che uniscono, attraverso i livelli, le entrate corrispondenti. Un’entrata completa può quindi essere catturata in una progressione attraverso i vari livelli d’informazione. 3.2. il livello semantico A livello semantico, il lessico è strutturato sulla base dell’ontologia SIMPLE-CLIPS8 che consiste in un insieme di 157 tipi semantici indipendenti sia da lingue specifiche che da domini di applicazione. Questo sistema di tipi, disegnato in modo consensuale nell’ambito del progetto SIMPLE, ha consentito di rappresentare la conoscenza lessicale delle varie lingue europee. Esso possiede inoltre la notevole caratteristica di essere strutturato non solo in base alla relazione gerarchica di iperonimia, come gran parte delle ontologie tradizionali, ma anche secondo relazioni concettuali di tipo non gerarchico, secondo il principio dell’eredità ortogonale [10]. E’ quindi composto sia da tipi semplici o unidimensionali che da tipi unificati o pluridimensionali. Nell’ontologia SIMPLE-CLIPS, un tipo semantico non rappresenta soltanto una semplice etichetta, bensì un insieme strutturato di proprietà definitorie. Assegnare un tipo semantico ad un’unità lessicale equivale quindi ad attribuirle l’insieme delle proprietà semantiche specifiche di quel tipo. Nell’ambito dei progetti SIMPLE e CLIPS, l’assegnazione ad un’unità lessicale dei tratti semantici che la caratterizzano è stato facilitata grazie all’uso di templates. Un template è una struttura schematica contenente un nucleo di proprietà semantiche specifiche di un tipo semantico. I templates costituiscono perciò un’interfaccia tra ontologia e lessico e guidano il processo di codifica fornendo 8 cf. http://www.ilc.cnr.it/clips/Ontology.htm al lessicografo, non appena egli ha deciso la classificazione ontologica di un’unità semantica, l’insieme delle proprietà e restrizioni da istanziare (e specificare dal punto di vista lessicale) nella sua descrizione. Questa metodologia di codifica guidata dai templates garantisce uniformità e coerenza della descrizione semantica, facilitando quindi l’aggiornamento, il recupero e la riusabilità dei dati. Nel modello SIMPLE-CLIPS, un’unità semantica è dotata di un insieme di informazioni riguardanti un largo spettro di aspetti semantici e che forniscono una rappresentazione molto fine della sua semantica lessicale. I mezzi di espressione dell’informazione sono due, i.e. relazioni tra unità semantiche e tratti semantici. Il grado di rilevanza di ogni singola informazione nella definizione di un tipo semantico e pertanto delle unità semantiche che vi appartengono - è inoltre segnalato da un attributo di ponderazione. Un’entrata semantica viene quindi definita attraverso i seguenti tipi d’informazione: 9 appartenenza ad un tipo semantico esplicitamente posizionato nella gerarchia dei tipi; dominio d’uso dell’unità semantica; classe semantica9; frase esemplificativa; per le unità che denotano un evento, il tipo di evento, i.e. stato, processo o transizione; particolari tratti semantici distintivi; appartenenza ad una classe di polisemia logica; relazione di sinonimia, in particolare per gli aggettivi; relazione di derivazione morfosintattica; espressione, per mezzo della Extended Qualia Structure, dei che situa l’unità lessicale all’interno del sistema di classi semantiche di LEXIQUEST. diversi elementi di sensi che coesistono nella semantica lessicale di un senso; nucleo d’informazioni specifiche riguardanti la rappresentazione predicativa delle entrate predicative e comprendenti: o l’assegnazione di un predicato lessicale ed indicazione del tipo di legame esistente tra predicato e unità semantica; o la descrizione degli argomenti del predicato in termini di arità, ruolo semantico e restrizioni - o meglio preferenze - di selezione. correlazione tra i livelli sintattico e semantico attraverso la proiezione della struttura argomentale sul quadro di sottocategorizzazione sintattica, con un raffinato sistema di coindicizzazione tra argomenti semantici e complementi sintattici10. E’ opportuno soffermarci ora su un aspetto particolarmente interessante ed innovativo del lessico CLIPS: la Extended Qualia Structure. La Extended Qualia Structure è stata ideata nell’ambito del progetto SIMPLE [6] sulla base dalla Qualia Structure (o Struttura dei Qualia) che rappresenta, nella teoria del Lessico Generativo, uno dei quattro componenti della rappresentazione semantica11. La Qualia Structure permette di strutturare, attraverso quattro ruoli, i diversi componenti di significato che coesistono nella semantica lessicale di un senso. Il ruolo formale caratterizza l’entità denotata rispetto alle altre; il ruolo costitutivo, descrive le sue proprietà metonimiche (costituzione interna o parte costituenti); il ruolo 10 Da notare in questo contesto come l’istanziazione dei ruoli semantici consenta di mettere in relazioni strutture che differiscono solo per la realizzazione sintattica degli argomenti. 11 insieme a type structure, argument structure, event structure. agentivo ne indica l’origine e il ruolo telico, la funzione12. Nel modello SIMPLE, si è ritenuto necessario rinforzare il potere espressivo di questo linguaggio formale per potenziare la ricchezza e granularità dell’informazione che veicola. Per ognuno dei quattro ruoli è stato quindi disegnato un insieme di sottotipi i quali costituiscono ovviamente un mezzo d’informazione più specifico. Permettono, da un lato, di dare una rappresentazione molto più fine delle varie dimensioni concettuali contenute in un’unità lessicale; dall’altro, di descrivere in modo più preciso la natura delle relazioni semantiche che queste unità intrattengono. Oltre ad indicare composizione, origine e funzione, la Extended Qualia consente in effetti di precisare, attraverso relazioni tra unità semantiche, il tipo di composizione, origine e funzione. Ad esempio, all’interno delle informazioni di tipo costitutivo: senatore ‘is_a_member_of’ senato vs. manubrio ‘is_a_part_of’ bicicletta; nel ruolo agentivo: edificio ‘created_by’ costruire vs. mohair ‘derived_from’ capra; nel ruolo telico: metano ‘used_as’ combustibile vs. cazzuola ‘used_by’ muratore. elaborati secondo gli stessi principi. Il secondo ipotizza invece la derivazione di un database lessicale bilingue attraverso il confronto e la combinazione delle informazioni contenute nel database monolingue CLIPS con quelle di un normale dizionario bilingue. La lingua obiettivo prescelta per attuare questo studio di fattibilità è stata il francese. E’ tuttavia opportuno precisare che le metodologie proposte sono entrambe applicabili ad altre coppie di lingue. 4.1. I due scenari Ultimata la costruzione di CLIPS, si è pensato di utilizzare questo lessico come punto di partenza per la creazione di una risorsa lessicale elettronica bilingue. E’ stato quindi avviato uno studio di fattibilità nel quale sono attualmente in corso di valutazione due scenari alternativi. Il primo prevede di ottenere un dizionario bilingue attraverso il collegamento delle informazioni contenute in due lessici monolingui 4.1.1. Prima ipotesi di lavoro I vari lessici europei PAROLE e SIMPLE, lo abbiamo sottolineato precedentemente, condividono modello e contenuto informativo; CLIPS, quale ampliamento dell’istanziazione italiana di questi lessici, rispecchia naturalmente queste caratteristiche. La prima ipotesi di lavoro, nata da uno studio di fattibilità realizzato al GILCUB di Barcellona13, intende precisamente sfruttare il carattere armonizzato delle risorse monolingui sviluppate a partire dal modello PAROLE-SIMPLE per stabilire un collegamento semiautomatico tra i dati contenuti in due di quei lessici. La prima fase di lavoro prevede l’estrazione da CLIPS delle entrate lessicali di un insieme di lemmi selezionati in base alla loro frequenza d’uso. Le coppie bilingui in cui compaiono questi lemmi italiani - tanto come Lingua Sorgente (LS) che come Lingua Obiettivo (LO) - vengono poi ricercate in un dizionario IT-FR FR-IT in versione CDrom. Dal lessico SIMPLE-FR vengono estratte le entrate lessicali dei lemmi francesi membri delle coppie bilingui. Ciascun lemma di una coppia viene così abbinato alla sua, o, più frequentemente, alle sue descrizioni semantiche. 12 13 4. IL LESSICO BILINGUE The Generative Lexicon, chap. 6, p.100 cf. M. Villegas et al. 2000. Successivamente, si procede alla messa a punto di un algoritmo finalizzato a stabilire le corrette corrispondenze tra unità semantiche IT e FR mediante 1) l’analisi dell’informazione contenuta nelle rispettive entrate lessicali monolingui e 2) la valutazione della loro compatibilità (cf. fig. 1). DIZIONARIO BILINGUE IT-FR FR-IT ALGORITMO SIMPLE FR CLIPS capo capo…. ufficio… gentile… residenza tessere… pompa… scrivere.. tête xxx yyy zzz tête chef bout ufficio xxx yyy capo_1 bureau charge xxx yyy zzz www testa capo faccia cima capo_2 ? … bureau xxx fon.. morf. sin sem ? ufficio i i ufficio_1 …. tête _1 fon.. morf. sin sem tête _2 … ? tête _3 … bureau 1 Fig.1. Riepilogo dello scenario I: parallelizzazione di due lessici armonizzati L’informazione lessicale di cui si valuta la compatibilità è di due tipi14: le proprietà inerenti ai due sensi: ¾ identità di classificazione ontologica o relazione di sussunzione tra il tipo semantico dell’entrata di LS e quella di LO ¾ identità di classe semantica o relazione di sussunzione tra la classe semantica dell’entrata di LS e quella di LO ¾ identità di dominio o relazione di sussunzione tra il dominio dell’entrata di LS e quello di LO ¾ identità / corrispondenza di tratti semantici ¾ identità / corrispondenza di relazioni semantiche proprietà contestuali dei due sensi: ¾ compatibilità di valenza sintattica ¾ funzione e istanziazione grammaticale dei complementi 14 cf. Villegas et al. 2000. ¾ compatibilità di valenza semantica ¾ ruolo semantico e restrizioni semantiche degli argomenti Un studio preliminare effettuato su un piccolo insieme di unità semantiche dei lessici monolingui che corrispondono a coppie di parole indicate dal bilingue come rispettive traduzioni ha consentito di stabilire una prima casistica di situazioni incontrate in fatto di compatibilità di proprietà inerenti. Alcuni casi tipici vengono illustrati di seguito: evento évènement Freedefinition=”cio' che e' accaduto o potra' Freedefinition="something that happens at a accadere, avvenimento” given place and time" Semantic type: EVENT Semantic type: EVENT Supertype: ENTITY Supertype: ----Semantic class: EVENT Semantic class: EVENT Identità di tipo semantico e classe semantica scrivere Freedefinition=”creare qualcosa di scritto” Semantic type: SYMBOLIC_CREATION Supertype: CREATION Semantic class: CREATION Domain: CREATIVE_WRITING écrire Freedefinition=”create written works & semi” Semantic type: CREATION Supertype: ----Semantic class: CREATION Domain: ---- Relazione di sussunzione tra i tipi semantici, identità di classe semantica tessere tisser Semantic type: PHYSICAL_CREATION Supertype: CREATION Semantic class: CREATION Domain: TEXTILES Sem. Rel.: Resulting_state: tessuto Semantic type: CREATION Supertype: ----Semantic class: CREATION Domain: ---Sem. Rel.: Resulting_state: tissu Relazione di sussunzione tra i tipi semantici, identità di classe semantica, identità di relazione semantica tessuto Semantic type: ARTIFACTUAL_MATERIAL UnficationPath:ConcreteEntityArtifactagentive Materialtelic Semantic class: MATTER Domain: TEXTILES Distintive feature: ----- tissu Semantic type: ARTIFACT UnificationPath:----Semantic class: MATTER Domain: TEXTILES Distintive feature: PLUS_ELABORATE Relazione di sussunzione tra i tipi semantici, identità di classe semantica, identità di dominio vincere Freedefinition=”portare a termine successo” Semantic type: RELATIONAL_ACT Semantic class: ACTIVITY Sem. Rel.:---Predicate_vincere_1 vaincre con Freedef.=”be the winner in contest/competition” Semantic type: CAUSE_RELAT.-CHANGE Semantic class: CHANGE Sem. Rel.: Resulting_action/state: victoire Agentive_cause:cause Predicate_vaincre_3 Divergenza di tipo semantico e di classe semantica, divergenza di relazioni semantiche. Ricorso all’analisi di compatibilità delle informazioni contestuali ed in particolare quelle riguardanti gli argomenti del predicato semantico. 4.1.2. Seconda ipotesi di lavoro Il secondo scenario attualmente sottoposto a valutazione ipotizza invece la derivazione di un database lessicale bilingue a partire da due fonti: il lessico CLIPS e un dizionario bilingue IT-FR in versione CDrom. Questa ipotesi di lavoro è basata sulla ricerca di correlazioni tra l’informazione fornita dagli indicatori di senso nelle entrate bilingui e i vari elementi descrittivi contenuti nel lessico CLIPS. Gli indicatori di senso, lo ricordiamo, sono quei commenti che, in un buon dizionario bilingue, seguono l’unità lessicale di lingua sorgente e fungono da indizio o restrizione per guidare l’utente nella scelta della traduzione più appropriata. Nell’ambito del progetto ISLE, essi sono stati suddivisi in due grandi classi15: indicatori portatori di informazione di tipo contestuale (cf. tab.1): es. soggetto od oggetto tipico, argomento del verbo base per le nominalizzazioni, aggettivo modificatore, nome tipicamente modificato, tipo di sintagma preposizionale, ecc. indicatori portatori di informazione di tipo inferenziale (cf. tab.2): es. sinonimi, antonimi, iperonimi, iponimi, meronimi, indicatori di sottotipo di lingua: dominio d’uso, dominio inferito, livello di lingua, stile, ecc. Italiano–francese COVARE Italiano–francese sogg. tipico A. v.tr. 1 (di uccelli) [dar calore col proprio corpo alle uova per sviluppare l’embrione] couver 2 (fig.) [custodire con gelosia] couver 3 (fig.)[nutrire, alimentare in segreto dentro di cl. verbale sé] nourrir, mijoter [tramare, macchinare in segreto] couver [incubare] couver: covare un malanno B. v.intr. (aus. avere)(fig.)[stare chiuso, nascosto] couver: il fuoco cova sotto la cenere ausiliare Tab .1. Indicatori di senso di tipo contestuale CAPO sinonimo iperonimo I (persone) 1 [testa] tête 2 (fig.) [mente, intelligenza] tête 3 [persona investita di comando, di potere] chef II (animali) 1 (raro) -> testa 2 spec. al plur [ciascun individuo di una specie determinata] têtes, pièces sinonimo III (cose) 1 [la parte più grossa e più sporgente di un oggetto] tête 2 [la parte più alta] haut 3 [ciascuna delle due estremità di qlco.] bout, tête 4 [inizio, principio] début 5 [fine, conclusione; sbocco] bout 6 loc. ….. dominio d’uso 7 (nei filati) fil 8 [singolo oggetto appartenente ad una serie] pièce 9 (géog.) cap Tab .2. Indicatori di senso di tipo inferenziale16 15 16 S. Atkins e P. Bouillon, 2002. Dizionario Robert & Signorelli La prima fase di questa strategia di lavoro prevede l’estrazione da CLIPS di un consistente nucleo di entrate rappresentative, scelte in base a criteri di frequenza dei lemmi, bilanciamento di categorie grammaticale e polisemia di sensi. Parallelamente, i sensi indicatori più ricorrenti vengono estratti dal dizionario bilingue IT-FR e sottoposti ad analisi. Si individuano quindi le possibili corrispondenze tra i due tipi d’informazioni estratte: quelle fornite dalle varie classi d’indicatori di sensi e quelle contenute nelle entrate di CLIPS (tab.3). Italiano–francese CAPO sin.=> t.s. BODY PART +mental I (persone) 1 [testa] tête 2 (fig.) [mente, intelligenza] tête 3 [persona investita di comando, di potere] chef II (animali) iper. => t.s. ROLE 1 (raro) -> testa 2 spec. al plur [ciascun individuo di una specie determinata] têtes, pièces sinonimo t.s. PART; +part III (cose) 1 [la parte più grossa e più sporgente di un oggetto] tête 2 [la parte più alta] haut 3 [ciascuna delle due estremità di qlco.] bout, tête 4 [inizio, principio] début 5 [fine, conclusione; sbocco] bout 6 loc. ….. dom. Textiles 7 (nei filati) fil 8 [singolo oggetto appartenente ad una serie] pièce dom. Geography 9 (géog.) cap Tab. 3. Corrispondenze tra indicatori di senso e info. CLIPS Una volta stabilite, queste correlazioni vengono formalizzate in un insieme di regole di corrispondenze. L’attivazione dell’algoritmo di regole ha lo scopo di consentire, in presenza di una tripla: [sensoLS-(indicatore di senso)-sensoLO]17, la corretta identificazione dell’entrata semantica di CLIPS pertinente per il senso italiano della coppia bilingue. Ad esempio, nella tripla: [capo – (persona investita di comando, di potere) – chef], la parola ‘persona’, in quanto genus di una minidefinizione, viene interpretata come un probabile iperonimo. L’algoritmo ricercherà quindi tra le entrate lessicali del lemma capo quella in cui il target della relazione formale ‘isa’ è l’unità 17 e naturalmente purché quel preciso indicatore di senso sia contemplato dall’algoritmo. semantica persona. Il risultato sarà l’abbinamento dell’entrata lessicale di CLIPS a cui è assegnato il tipo semantico “Role” al senso LS della tripla [capo: USem3615capo – (persona investita di comando, di potere) – chef]. Il senso francese della coppia bilingue essendo un equivalente del senso italiano, appare ragionevole ipotizzare che possa condividere le proprietà semantiche dell’entrata di CLIPS. Il database lessicale bilingue così generato comprenderà quindi coppie di sensi bilingui che condividono una rappresentazione semantica. In un primo tempo, la condivisione sarà limitata alle informazioni espresse in termini di tratti semantici (i.e. tipo semantico, supertipo, classe semantica, tratto semantico distintivo); in un secondo tempo, una volta completato il processo di correlazione fra i sensi, potranno essere condivise anche le informazioni espresse in termini di CLIPS capo ufficio gentile residenza tessere pompa scrivere relazioni fra unità semantiche (i.e. il contenuto della Extended Qualia Structure). DATABASE LESSICALE BILINGUE DIZIONARIO BILINGUE IT-FR FR-IT capo xxx tête yyy chef zzz bout ufficio xxx bureau yyy charge capo_1 wx tête_1 semantic_type: BODY_PART … capo_2 wx chef_3 semantic_type: ROLE … tête xxx yyy zzz www testa capo faccia cima bureau xxx ufficio yyy scrivania ufficio_1 wx bureau_2 semantic_type: BUILDING … ufficio_2 wx bureau_4 sem._type: HUMAN_GROUP … Fig.2. Riepilogo dello scenario II: metodo basato sugli indicatori di senso 5. CONCLUSIONE Nonostante lo studio di fattibilità sia ancora in atto è tuttavia possibile scorgere alcuni dei possibili vantaggi e svantaggi delle due metodologie proposte per la derivazione di una risorsa lessicale bilingue a partire da un lessico monolingue. Mettere in parallelo due lessici monolingui creati secondo lo stesso modello, come illustrato nella prima proposta, presenta indubbiamente dei vantaggi in termini di uniformità di trattamento dei fenomeni linguistici. La codifica template-driven adottata dal modello SIMPLE offre inoltre ulteriori garanzie di omogeneità e coerenza di rappresentazione dell’informazione semantica attraverso i vari lessici. La ricchezza di dettagli nella descrizione della conoscenza lessicale è poi tale da permettere di sopperire a discrepanze dovute sia alla soggettività del lessicografo che ad una consapevole scelta di granularità descrittiva diversa. D’altra parte, la parallelizzazione dei lessici equivale in pratica ad un controllo incrociato dei loro dati e quindi fornisce un feedback che potrebbe essere utile per un’eventuale fase di correzioni a livello monolingue, correzioni riguardanti sia errori di classificazione ontologica o di assegnazione di proprietà semantiche che mancanza di sensi o addirittura di lemmi. Altro vantaggio a livello monolingue potrebbe essere l’unione delle informazioni complementari contenute nei due database lessicali. Per quanto riguarda gli svantaggi di questa prima proposta, il primo è dovuto alla disparità di copertura lessicale tra i due lessici. Infatti, questo metodo è applicabile solo ai 10.000 sensi che costituiscono il lessico SIMPLE francese e pertanto i 45.000 sensi italiani restanti dovranno obbligatoriamente essere trattati con il secondo metodo. Per i 10.000 sensi trattabili, un processo di disambiguazione manuale dovrebbe comunque intervenire nei casi in cui non esista nessun elemento corrispondente nelle descrizioni di LS e LO. Una totale discrepanza potrebbe essere dovuta o ad un errore vero e proprio di codifica oppure all’aver privilegiato, tra le varie dimensioni del significato di un’unità lessicale, uno degli aspetti rispetto ad un altro, come ad esempio nelle entrate di imprigionare e emprisonner, in cui i lessicografi hanno tenuto in maggior considerazione rispettivamente il punto di vista dell’agente e del paziente, assegnando alle entrate il tipo semantico ‘purpose_act’ per il primo, e ‘cause_relational_change’ per il secondo. Per quanto concerne la seconda ipotesi di lavoro in cui vengono utilizzate informazioni monolingui italiane e indicatori di sensi, il primo vantaggio è che, non essendo legato ad un secondo lessico monolingue, il metodo può teoricamente essere applicato ai 55.000 lemmi di CLIPS. Uno svantaggio, invece è la mancanza d’informazione sintattica per le unità lessicali francesi, mentre, con la prima proposta, ogni entrata semantica di SIMPLE-FR è legata, nel lessico PAROLE-FR, alla sua descrizione sintattica. La decisione finale riguardo al metodo da adottare per la derivazione di una risorsa lessicale bilingue sarà naturalmente basata su una valutazione dei risultati ottenuti con ognuno dei due metodi su un campione di 500 lemmi. BIBLIOGRAFIA [1] Busa, F., Calzolari, N., Lenci, A. (2001), Generative Lexicon and the SIMPLE Model; Developing Semantic Resources for NLP, in Bouillon P. and Busa F. (eds.), The Language of Word Meaning, Cambridge University Press, pp. 333-349. [2] Calzolari, N., Lenci A., Zampolli A. (2003), SIMPLE: Plurilingual Semantic Lexicons for Natural Language Processing, in Linguistica Computazionale, Giardini Editori, Pisa. [3] Genelex Consortium (1993), EUREKA Project GENELEX - Report of Syntactic Layer, 4.0., GsiErli. [4] Genelex Consortium (1994), EUREKA Project GENELEX - Report of Semantic Layer, 2.1., GsiErli. [5] IDE N., GREENSTEIN D., VOSSEN P. (eds.), Special Issue on EuroWordNet, in Computers and the Humanities, XXXII (1998). [6] Lenci et al, Linguistic Specifications, Simple WorkPackage 2, Deliverable D2.1, March2000. http://www.ub.es/gilcub/SIMPLE/simpl e.html - Specifications [7] Lenci, A., Bel N., Busa F., Calzolari N., Gola E., Monachini M., Ogonowsky A., Peters I., Peters W., Ruimy N., Villegas M., Zampolli A. (2000). SIMPLE: A General Framework for the Development of Multilingual Lexicons, in International Journal of Lexicography, Vol. 13, n° 4, Oxford University Press. [8] Monachini M., Roventini A., Alonge A., Calzolari N., Corazzari O. (1994), Linguistic Analysis of Italian Perception and Speech Act Verbs, in N. OSTLER (ed.), DELIS Deliverable, D-II, Pisa and London. [9] Pustejovsky J. (1991), The Generative Lexicon, in Computational Linguistics, 17 (4), 409-441. [10] Pustejovsky J., Boguraev B. (1993), Lexical Knowledge Representation and Natural Language Processing, Artificial Intelligence 63, 193-223. [11] Pustejovsky J. (1995), The Generative Lexicon, The MIT Press, Cambridge, MA. [12] Pustejovsky J. (1998), Specification of a Top Concept Lattice, Brandeis University. [13] Ruimy N., Corazzari O., Gola E., Spanu A., Calzolari N., Zampolli A. (1998), The European LE-PAROLE project: The Italian Syntactic LEXICON First International Conference on Language Resources and Evaluation ELRA Proceedings, Granada, vol. 1, 241-248. [14] Ruimy N., Corazzari, O., Gola, E., Spanu, A., Calzolari, N., Zampolli, A. (2003), The Parole Model And The Italian Syntactic Lexicon, in Linguistica Computazionale, Giardini Editori, Pisa [15] Ruimy N., Gola E., Monachini M. (2001), Lexicography Informs Lexical Semantics: the SIMPLE Experience, in Bouillon P. and Busa F. (eds.), The Language of Word Meaning, Cambridge University Press, 350-362. [16] Ruimy N., Monachini M., Gola E., Calzolari N., Del Fiorentino M.C., Ulivieri M., Rossi S. (2003): A Computational Semantic Lexicon of Italian: SIMPLE, in Linguistica Computazionale, Giardini Editori, Pisa. [17] Ruimy N., Monachini M., Calzolari N. (2001), Specifiche Linguistiche e Manuale di Codifica - Livello Sintattico, versione preliminare, CLIPS-WP5, Pisa. [18] Ruimy N., Monachini M., Calzolari N. (2001). Specifiche Linguistiche e Manuale di Codifica - Livello Semantico, versione preliminare, CLIPS-WP5, Pisa. [19] Ruimy N., Monachini M., Distante R., Guazzini E., Molino S., Ulivieri M., Calzolari N., Zampolli A. (2002), CLIPS, a Multi-level Italian Computational Lexicon, Third International Conference on Language Resources and Evaluation Proceedings, Vol. III, Las Palmas de Gran Canaria, Spain, 792-799. [20] Sanfilippo A. et al., Subcategorization Standards, Report of the Eagles/Lexicon/Syntax Group, 1996. [21] Sanfilippo A., Calzolari N., Ananiadou S., Gaizauskas R., SaintDizier P., Vossen P. (eds.) (1999). Preliminary Recommendations on Lexical Semantic Encoding. EAGLES LE3-4244 Final Report.