Consiglio Nazionale delle Ricerche

Transcript

Consiglio Nazionale delle Ricerche
C
Consiglio Nazionale delle Ricerche
Modelli distribuzionali delle relazioni
semantiche: il caso dell’iponimia
e dell'antonimia
G. Benotto
IIT B4-03/2014
Nota Interna
Luglio 2014
Iit
Istituto di Informatica e Telematica
Sommario Introduzione e scopo del lavoro ................................................................................... 2 Relazioni paradigmatiche ............................................................................................. 5 Iponimia ......................................................................................................................................................................... 6 Antonimia ................................................................................................................................................................... 10 Semantica Distribuzionale ......................................................................................... 15 La semantica distribuzionale applicata allo studio delle relazioni di iponimia e antonimia .................................................................................................................. 21 Problematiche rilevate .......................................................................................................................................... 21 Raccolta dati utilizzando Amazon Mechanical Turk ................................................................................ 29 Primi esperimenti per il trattamento semantico-­‐distribuzionale degli antonimi ....................... 33 Conclusioni e Proposte Future ................................................................................... 36 Bibliografia ................................................................................................................ 39 Introduzione e scopo del lavoro L'obiettivo globale di questo progetto consiste nell'esplorazione delle potenzialità e dei limiti dell'approccio distribuzionale come modello del lessico semantico. L'ipotesi che la co-­‐occorrenza statistica delle parole estratte da corpora testuali possa fornire una base per la rappresentazione semantica ha guadagnato di recente una crescente attenzione, sia nel mondo della linguistica computazionale che in quello delle scienze cognitive. I termini distribuzionale, basato su corpus o statistico possono essere utilizzati in maniera quasi interscambiabile per definire una famiglia di approcci alla semantica che condividono una prospettiva “basata sull'uso” riguardo al significato, che assume la distribuzione statistica delle parole nei contesti contribuisca a definire il loro comportamento semantico. Esistono comunque molte differenze nelle tecniche matematiche e computazionali adottate, nel tipo di proprietà semantiche associate alla distribuzione del testo e nelle diverse definizioni dei contesti linguistici utilizzati per determinare gli spazi combinatori degli elementi lessicali. A uno sguardo più ravvicinato, è possibile scoprire che le proprietà in comune potrebbero essere molte di più rispetto a quelle che ci si aspetta a un primo sguardo e che esiste un modello generale del significato che può essere isolato oltre le differenze, un modello che formula ipotesi specifiche sul formato delle rappresentazioni semantiche, del modo in cui sono costruite ed elaborate dalla mente umana. Diversi metodi per l'analisi computazionale delle proprietà distribuzionali delle parole sono stati sviluppati sia in linguistica computazionale che in psicologia e negli ultimi decenni sono state studiate e sviluppate molte misure per il calcolo della similarità lessicale su base distribuzionale. Data l'ipotesi distribuzionale, è quindi possibile applicare ai testi metodi computazionali per acquisire dinamicamente le proprietà semantiche attraverso elaborazioni matematiche delle distribuzioni delle parole nei testi stessi. Lo scopo di questo lavoro è quello di effettuare uno studio riguardo le misure attualmente proposte per il riconoscimento delle relazioni semantiche paradigmatiche, in modo da valutarne il grado di successo. Si vuole infatti capire se i metodi distribuzionali possono rivelarsi efficaci nello svolgimento di compiti di riconoscimento di relazioni semantiche paradigmatiche. Si vuole inoltre stabilire se esiste un margine di miglioramento nelle tecniche attualmente in uso per il riconoscimento di questo tipo di relazioni. Forte dei dati ottenuti dall'analisi precedentemente descritta, il mio obiettivo è migliorare i modelli di semantica distribuzionale al fine di distinguere diversi tipi di relazioni semantiche paradigmatiche. Le relazioni paradigmatiche (sinonimia, antonimia, iperonimia/iponimia, meronimia) riguardano l'insieme delle parole che fanno parte di uno stesso campo semantico, ovvero delle parole che hanno significato simile, opposto, più o meno generico rispetto a una stessa parola e che possono quindi essere usate in alternativa a quella parola, a seconda del tipo di contesto, dell'interlocutore o del fine della comunicazione: felice/allegro (sinonimia), bello/brutto (antonimia), fiore/violetta (iperonimia), dito/mano (meronimia). Analizzare le relazioni paradigmatiche utilizzando i metodi distribuzionali risulta essere molto interessante, in primo luogo perché i metodi di semantica distribuzionale, allo stato dell'arte, hanno difficoltà nel distinguere queste relazioni. Questo avviene perché le distribuzioni di queste relazioni all'interno dei testi tendono ad essere molto simili. A tale proposito, una frase quale: il ragazzo/la ragazza/la persona ama/odia il suo gatto illustra che i (co)iponimi ragazzo/ragazza, afferenti allo stesso iperonimo persona, così come gli antonimi amore/odio possono ricorrere, rispettivamente, in contesti identici. In particolare, esaminando le caratteristiche distribuzionali delle relazioni paradigmatiche, si può notare che la relazione di iponimia/iperonimia e la relazione di antonimia presentano particolari difficoltà nell'essere estratte e classificate utilizzando metodi distribuzionali. La relazione di iperonimia/iponimia, ad esempio, non può essere riconosciuta utilizzando questi metodi a causa della sua natura intrinsecamente asimmetrica. Considerando, ad esempio, la coppia animale-­‐cane, legata dalla relazione di iperonimia, si può assumere che, se l’essere cane implica l’essere animale, l’essere animale non implica l’essere cane, essendo animale un termine più ampio di cane. Le misure comunemente utilizzate allo stato dell'arte caratterizzano semplicemente la distanza tra parole, che è una relazione simmetrica: se una parola, A, è vicina a B nello spazio semantico, questo implica che B sia vicina ad A. Il modello non riesce a caratterizzare le diverse proprietà semantiche delle relazioni che legano le parole vicine. La relazione di antonimia, invece, pone quesiti interessanti in quanto tende a distribuirsi nei testi seguendo le stesse modalità della relazione di sinonimia. Questo rende estremamente difficile distinguere, appunto, la relazione di sinonimia da quella di antonimia utilizzando i metodi di semantica distribuzionale. Proprio per le evidenti difficoltà e le particolarità delle relazioni di iponimia e antonimia, si è deciso di focalizzare il lavoro su queste due relazioni. Sul versante applicativo, l'obiettivo è quello di contribuire alla realizzazione di modelli computazionali funzionali per il riconoscimento e la classificazione (nonché della discriminazione rispetto alle altre relazioni semantiche) delle relazioni di iponimia e antonimia tra i termini di un testo. Il problema principale, infatti, consiste nello sviluppare la 'misura distribuzionale' più adatta per classificare le relazioni in esame e che sia in grado di discriminare queste ultime rispetto a relazioni semantiche diverse. E' stata quindi effettuata una prima fase di analisi dello stato dell'arte in linguistica computazionale e in semantica lessicale per quanto riguarda la rappresentazione e la modellazione delle relazioni semantiche oggetto di indagine. Tali discipline possono essere d'ausilio anche nel definire le procedure di selezione dei dati necessari per lo sviluppo di adeguati algoritmi computazionali e per la valutazione intrinseca dei modelli stessi. Il progetto si concentra poi sullo sviluppo e sulla sperimentazione di modelli distribuzionali, realizzati utilizzando il concetto di spazi di parole. Considerando l’assunto alla base del modello distribuzionale, ovvero che la prossimità nello spazio modelli la correlazione semantica, sarà possibile calcolare la correlazione fra una coppia di parole e una relazione semantica (ovvero saremo in grado di classificare la relazione semantica che lega una coppia di parole) misurando la vicinanza fra il vettore che descrive la relazione e quello che descrive la coppia di parole. Una volta costruiti i modelli, sarà necessario valutarne la capacità discriminativa rispetto ai diversi tipi di relazione. Relazioni paradigmatiche Le relazioni semantiche paradigmatiche tra parole -­‐ antonimia, sinonimia, iperonimia/iponimia etc. -­‐ sono rilevanti per la struttura dell'informazione lessicale e concettuale. Questa nozione di ``rilevanza” è piuttosto vaga e al suo interno si trovano opinioni, assunzioni e modelli che variano ampiamente. Per alcuni studiosi (ad esempio (Katz, 1972), (Kempson, 1977) e (Pustejovsky,
1995)), spiegare queste relazioni è uno degli scopi della semantica lessicale, così come modellare relazioni quali l'implicazione e la contraddizione è un problema fondamentale nella semantica proposizionale. Per altri studiosi (
(Deese, 1966), (Lehrer A. , 1974), (George Miller, 1998)), sono le relazioni tra parole a determinare il significato, piuttosto che il contrario. Le differenze tra questi punti di vista sottolineano quanto la genesi, la rappresentazione e l'uso delle relazioni paradigmatiche siano argomenti poco chiari alla luce delle teorie linguistiche e psicolinguistiche. In letteratura, queste relazioni sono sovente definite come relazioni lessicali o relazioni semantiche e qualche volta questi due termini sono usati in contrasto. Il termine comune relazione, descrive l'appartenenza a un insieme che presenta caratteristiche comuni. Le relazioni paradigmatiche, dunque, indicano un insieme di termini che formano una sorta di paradigma, ad esempio un paradigma semantico che contiene membri della stessa categoria grammaticale che presentano alcune caratteristiche comuni, pur non condividendone altre. Le principali relazioni semantiche di tipo paradigmatico sono le seguenti: •
sinonimia automobile=macchina •
antonimia buono/cattivo •
contrasto dolce/aspro/amaro/salato •
iponimia o inclusione di classe gatto<mammifero<animale (dove ``<“ indica inclusione) •
meronimia o relazione parte-­‐di dito-­‐mano-­‐corpo umano Come accennato in precedenza in questo lavoro saranno trattate, in modo particolare, le relazioni di iperonimia e antonimia, che presentano caratteristiche particolarmente interessanti e rappresentano una sfida aperta per la difficoltà nell'essere trattate utilizzando metodi basati sulla semantica distribuzionale. Iponimia La relazione di iponimia, ovvero la relazione type<token (e il suo inverso, la relazione token>type, ovvero l'iperonimia), è una delle relazioni strutturali fondamentali nel lessico, ed è la "relazione lessicale maggiormente studiata nella comunità computazionale" (Pustejovsky, 1995). A causa della sua rilevanza e influenza sui modelli di conoscenza lessicale, l'iponimia ha un ruolo fondamentale nelle questioni sull'organizzazione semantica del lessico. Le inferenze, un particolare tipo di implicazione, sono infatti fortemente associate alla relazione di iponimia. Il fatto che una frase possa implicare una frase equivalente che include l'iperonimo di uno dei termini che la compongono, dimostra quanto appena affermato. Ad esempio, una frase come è entrato il gatto implica è entrato l'animale. Quindi la relazione di iponimia è fondamentale per caratterizzare il significato di una parola. A livello grammaticale, le restrizioni di selezione sull'oggetto di un verbo, possono essere espresse in termini di iperonimo e tutti gli iponimi di quel termini possono essere quindi selezionati come possibili oggetti (Resnik,
1993). L' iponimia è definita come la relazione 'tipo di'. Cane è un iponimo di animale perché il cane è un tipo di animale. Nel modelli computazionali è frequentemente rappresentata come is-­‐a (David E. Rumelhart, 1972) o is-­‐a-­‐
member-­‐of (Kintsch, The representation of meaning in memory, 1974). Definizioni logiche per questo tipo di relazione sono spesso espresse in termini di inclusione di insiemi. Quindi, ad esempio, tascabile è un iponimo di libro perché il significato di tascabile include tutte le proprietà (o altre rappresentazioni del significato) che costituiscono il significato di libro (avere le pagine, una copertina, essere fissato su un lato etc.). La maggior parte delle definizioni di iponimia tendono a specificare l'unidirezionalità dell'inclusione. Se l'inclusione fosse bidirezionale, infatti, la relazione sarebbe una relazione di sinonimia. L'iponimia è una relazione di tipo non riflessivo, se la si considera una relazione fra i significati. Una relazione semantica è riflessiva quando ogni elemento coinvolto è in relazione con sé stesso. Se si considera l'iponimia come una relazione tra elementi lessicali, è possibile che si verifichi il caso in cui un elemento è in relazione di iponimia con sé stesso. E' il caso degli autoiponimi, che possono appunto essere considerati elementi iponimi di loro stessi. L'autoiponimia è un tipo di polisemia in cui una parola ha un senso generale e uno più specifico. Si consideri il seguente esempio: •
Un quadrato è un rettangolo con tutti i lati uguali •
Un quadrato ha quattro lati uguali, mentre un rettangolo ne ha solo due •
Il senso della parola evidenziata (rettangolo), nella prima frase, è un iperonimo del senso che assume nella seconda frase. Per la maggior parte delle definizioni di iponimia, comunque, i due usi (quello più generale e quello più specifico) della parola vengono trattati come significati separati e quindi la relazione non può considerarsi riflessiva. L'iponimia e l'iperonimia sono anti-­‐simmetriche, infatti dire che u è un iponimo di v, implica che v non sia un iponimo di u. Se, ad esempio cane è un iponimo di animale, questo implica che animale non sia iponimo di cane. Iponimia e iperonimia sono però simmetriche rispetto l'una all'altra. Se, infatti, v è un iperonimo di u, u sarà un iponimo di v, ovvero se animale è iperonimo di cane, cane sarà iponimo di animale. L'iponimia, o quantomeno l'iponima tassonomica, è una relazione di tipo transitivo e la sua transitività è causa dei “poteri implicativi” (Martha W.
Evens, 1980) di questa relazione. Diverse fonti divergono sull'idea che l'iponimia sia da considerare una relazione tra parole, tra significati o tra cose. Per la maggior parte dei semanticisti lessicali, che parlano frequentemente di “relazioni tra i sensi”, l'iponimia è una relazione tra intensioni, ovvero tra proprietà informative (
(Kempson, 1977) (Cruse, 1986), (Persson G. , 1990)). In questo caso, il significato dell'iperonimo è contenuto ne (o ereditato da) l'iponimo. Si assume infatti che l'iponimo abbia proprietà più informative rispetto all'iperonimo, ovvero che cane presenti proprietà più informative di animale, dato che, ad esempio, il cane abbaia, cosa non vera per tutti gli animali. In semantica formale, le relazioni di iponimia indicano una relazione di inclusione tra le estensioni di due parole, tale per cui le estensioni dell'iponimo rappresentano un sottoinsieme delle estensioni dell'iperonimo (Cann, 1993). Ad esempio, animale si riferisce ad un insieme di entità più ampio rispetto a cane, e le estensioni di cane, quali ad esempio levriero, labrador etc. rappresentano un sottoinsieme delle estensioni di animale. Altri, spesso nelle discipline computazionali, non distinguono tra le relazioni intenzionali ed estensionali. Le due posizioni sono spesso considerate le due facce di una stessa medaglia, dato che le intensioni determinano l'insieme delle estensioni. Che l'iponimia (nel suo senso usuale) non sia semplicemente membro di un insieme di estensioni è dimostrato dall'esempio di (Wierzbicka, 1984)): tutti i membri dell'estensione poliziotto, sono membri dell'estensione di figlio di qualcuno, ma le intensioni di figlio di qualcuno non sono necessariamente parte delle intensioni di poliziotto. Altri problemi si possono avere considerando l'iponimia esclusivamente come un'inclusione di significato, in cui i componenti semantici di un elemento sono un sottoinsieme di quelli del suo iponimo. Per (Persson U. M., 1986), trattare l'iponimia come una relazione di inclusione di significato, implicherebbe che impiego>impiegato rappresenta una relazione di iponimia, dato che i significati di impiegato includono presumibilmente quelli di impiego. Un approccio di questo tipo contrasta con la nozione di iponimia come relazione paradigmatica, e quindi dimostra che il concetto di inclusione dei significati non è definibile al pari di quello di inclusione delle classi. L'iponimia è trattata, nei modelli associazionisti del lessico, come una relazione tra parole. Un problema che si rileva in questi approcci è stabilire la modalità con cui le parole si associano tra loro. I bambini, ad esempio, sviluppano tassonomie concettuali che mettono in relazione categorie subordinate e sopraordinate, pur non utilizzando queste categorie nello stesso modo in cui le utilizzano gli adulti. Il passaggio verso l'organizzazione tassonomica del lessico e l'utilizzo dell'iponimia, indica una crescita delle capacità cognitive e metalinguistiche (inclusa la presa di coscienza verso le relazioni lessicali paradigmatiche). Quindi, se le relazioni semantiche intercorrono fra le parole (invece che tra i concetti che denotano) c'è necessità di provare che siano le parole, e non solo i concetti, ad essere in relazione tra loro. In altre parole, sia le forme lessicali che i significati devono essere rilevanti per la relazione, se sussiste sia una relazione di tipo lessicale che di tipo semantico. Ma la “forma” sembra essere meno rilevante per l'iponimia, rispetto a quanto accade per la sinonimia o l'antonimia. Una questione del tipo: Definisci un tipo di animale trova in gatto una risposta che sembra migliore di micio. Questo può portare a credere che la similarità di registro linguistico sia fondamentale per le decisioni che vengono assunte nel definire la relazione di iponimia. Si può invece notare che l'utilizzo di parole appartenenti a un registro marcato nella domanda, non implica che la risposta fornita venga considerata 'migliore' se contiene un antonimo appartenente allo stesso registro linguistico. Parlando di tassonomie sembra normale ricondurre ogni parola alla sua forma meno marcata, perché in quel caso la questione in esame non riguarda tanto l'associazione delle parole, quanto l'appartenenza a una categoria. Questo contrasta con la relazione di antonimia, per la quale la forma è tipicamente più rilevante. Pensare a un antonimo per sveglio induce più probabilmente a produrre addormentato che dormiente. Questo avviene sia perché sveglio/addormentato rappresentano una relazione canonica, sia perché sveglio si accorda alle forme morfo sintattiche di addormentato meglio di quanto non faccia con quelle di dormiente. Nel caso dell'antonimia, l'esistenza degli antonimi canonici fornisce una prova chiara di opposizione lessicale. Gli iponimi canonici, se esistono, sono rari. Chiedere ai parlanti di fornire esempi della relazione tipo-­‐di implicherà ricevere risposte appartenenti a un intervallo limitato di campi semantici (ad esempio il campo della biologia). Questo è molto probabilmente dettato dal fatto che i campi selezionati risultano essere fortemente tassonomici. Più difficilmente una scelta di questo tipo potrà essere imputata al fatto che le parole che appartengono a tali campi semantici tendano ad occorrere insieme più frequentemente rispetto ad altre coppie di iponimi-­‐iperonimi. Riassumendo, possiamo sostenere che la forma parola sia raramente rilevante per la selezione degli iponimi. Sembra invece che la relazione di iponimia rifletta semplicemente le relazioni tassonomiche che si stabiliscono tra concetti non lessicali. Antonimia L'antonimia (intendendo con antonimia l'opposizione binaria in generale) è presumibilmente riconducibile all'archetipo di relazione semantica lessicale. A differenza di quanto avviene per la sinonimia, chiunque potrà convenire che l'antonimia esiste ed è evidente nel linguaggio naturale. A differenza dell'iponimia, può essere tanto una relazione tra parole, quanto lo è tra concetti. La sinonimia e l'antonimia sono, senza dubbio, due delle più conosciute relazioni semantiche tra termini e possono essere definite come parole che hanno significati 'simili' (sinonimia) e parole che hanno significati 'opposti' (antonimia). La questione affascinante riguardo l'antonimia è che, anche se le parole antonime sono definite opposte, sono comunque semanticamente molto simili. (Cruse, 1986) ha osservato che esiste una nozione di simultanea vicinanza e distanza fra l'una e l'altra, e ha notato che questo può essere parzialmente spiegato dal fatto che gli opposti condividono la stessa dimensione semantica. Ad esempio, la coppia di antonimi caldo e freddo condivide la dimensione temperatura, ma a differenza dei sinonimi che si vengono a collocare sullo stesso punto, o su punti in prossimità dell'ideale linea che rappresenta la dimensione (due termini come caldo e bollente si troveranno vicini su questa scala), termini antonimi si collocheranno agli estremi opposti della scala. I termini legati da relazione di antonimia sono quindi simili in tutti gli aspetti, tranne uno nel quale sono in opposizione massima (Willners, 2001). Come già accennato in precedenza, ci sono stati moltissimi lavori sugli aspetti linguistici e cognitivi dell'antonimia e della sinonimia (Lehrer A. L., 1982); (Cruse, 1986); (Walter G. Charles, 1989). Entrambe le relazioni hanno avuto un ruolo particolare nell'area della semantica distribuzionale, che investiga, come vedremo meglio nel capitolo successivo, la modalità con cui la distribuzione statistica delle parole nei contesti può essere utilizzata per la modellazione del significato semantico. Le relazioni di antonimia sono definite dalla loro binarietà. Se due elementi appartengono allo stesso insieme di contrasto possono essere considerati automaticamente antonimi. Ad esempio, gli esseri umani hanno solo due tipi di arti, quindi braccia e gambe contrastano automaticamente grazie al loro essere gli unici membri della categoria arti umani Abbiamo visto in precedenza che può esistere la binarietà dettata dall'opposizione scalare, in cui due elementi condividono tutte le proprietà tranne una, per la quale presentano caratteristiche diametralmente opposte. La natura binaria della negazione (si/no) conduce al terzo tipo di binarietà. Per lingue morfologicamente ricche, termini opposti possono essere creati attraverso morfologia negativa, come ad esempio in blu/non-­‐blu o logico/illogico. Esiste anche la binarietà fine a sé stessa. In casi come questo, tre elementi sono disponibili per il contrasto, ma due fra questi sono privilegiati come antonimi. Quindi, mentre felice è in contrasto con triste e arrabbiato, sembra avere più caratteristiche in comune con triste. Mentre felice/arrabbiato è un contrasto utile in alcuni contesti, in un contesto neutro felice e triste vengono favoriti come opposti. Nonostante la relazione di antonimia sia reciproca, i membri di una coppia di antonimi possono non mostrare distribuzione simmetrica nei contesti linguistici o nei comportamenti d'uso. Questo si evidenzia nei task di associazione lessicale, in cui una parola u può evocare il suo antonimo v, ma v può non evocare u. Alcuni linguisti teorici hanno sfruttato la tendenza degli antonimi a co-­‐
occorrere (e a farlo in maniera preferenziale in costruzioni di tipo simmetrico) per spiegare il modo in cui il parlante acquisisce la conoscenza del fatto che due parole siano antonimi. (Fellbaum, 1995) ha identificato un insieme di questo tipo di costruzioni, quali ad esempio: •
x e y organizzazioni private (pubbliche) e pubbliche (private) •
da x a y Da dietro (davanti) a davanti (dietro) •
x o y tutte le lingue, vive (morte) o morte (vive) In queste costruzioni x e y hanno distribuzione simmetrica e, in qualche maniera, possono essere invertite nel testo. Sussiste il caso in cui non ci sia possibilità di invertire termini di questo tipo nel testo, quando uno dei due termini risulta semanticamente marcato in relazione all'altro. La marcatezza è una delle maggiori fonti di asimmetria distribuzionale nelle relazioni antonimiche. Nonostante la relazione di antonimia sia logicamente simmetrica, le prove fornite dall'associazione di termini indicano che relazioni antonimiche specifiche possono essere memorizzate in maniera direzionale. Molti degli studi effettuati sull'opposizione lessicale si sono focalizzati nel definire e differenziare diversi sottotipi di opposti. Le tassonomie di opposti definite da (Lyons, 1977) e (Cruse, 1986) sono certamente le più citate, quindi le categorie e definizioni che hanno individuato sono considerate 'standard'. (Lyons, 1977) ad esempio, restringe l'utilizzo del termine antonimo al sottoinsieme degli antonimi che sono gradabili e contrari. Certamente contrari gradabili (quali, ad esempio, grande/piccolo, buono/cattivo sembrano particolarmente rappresentativi del fenomeno di contrasto lessicale binario. Un predicato può essere considerato gradabile se descrive una proprietà che si può manifestare a un grado maggiore o minore. Termini gradabili possono essere associati con modificatori di grado (come molto o leggermente) e possono occorrere in costruzioni comparative e superlative. Quindi, aggettivi quali lungo o produttivo sono gradabili, mentre aggettivi come estinto, non lo sono. •
Questa giornata è stata molto lunga e molto produttiva •
Questa giornata è stata più lunga e più produttiva di quella di ieri •
! Quell'animale è molto estinto •
! Quell'animale è più estinto dell'altro Gli opposti gradabili presentano, tipicamente, opposizione contraria, il che significa che asserire uno dei due implica necessariamente negare l'altro. In altre parole, u e v sono in opposizione contraria nel caso in cui, se X è u, allora non è v. La caratteristica chiave dell'opposizione contraria consiste nel fatto che l'implicazione può essere effettuata in modo che un'asserzione di u implichi la negazione di v, ma che la negazione di u non implichi l'asserzione di u. Ad esempio: •
Il morfema è lungo ! Il morfema non è corto •
! Il morfema non è lungo ! Il morfema è corto L'implicazione in questa seconda frase non sussiste, perché il morfema in questione non è lungo, ma può non essere corto, può essere di lunghezza media. L'antonimia, nel suo senso più ampio, si focalizza in modo particolare sui contrasti che sono simmetricamente collocati su una scala, come caldo/freddo, tanto che (Lehrer A. L., 1982) si riferiscono ai contrari gradabili simmetrici come agli antonimi perfetti. Gli insiemi di contrasto con membri gradabili non presentano membri assolutamente incompatibili. (Lyons,
1977) fornisce l'esempio eccellente/buono/normale/pessimo/atroce. In questo caso i membri sono co-­‐
iponimi, come in altri insiemi di contrasto, ma i confini tra i termini sono labili, tanto che l'uno sfuma dentro l'altro. Si hanno quindi set di contrasto che coinvolgono elementi gradabili che non presentano relazione contrarie. (Lyons, 1977) definisce l'antonimia complementare sulla base della relazione di implicazione tra i termini di una coppia di antonimi. Se X è u, allora X non è v e se X non è u, allora X è v. Ad esempio, dire che il mostro è vivo implica che il mostro non sia morto, e dire che il mostro è morto implica che il mostro non sia vivo. Identificare gli antonimi complementari nel linguaggio è particolarmente complesso, dato che i complementari possono, talvolta, essere utilizzati come contrari e viceversa. Per usare un esempio di (Palmer, 1981), si può dire che qualcuno è più morto che vivo, rendendo una coppia di aggettivi tipicamente non gradabili, gradabili in questo contesto d'uso e rendendo quindi complessa la segmentazione dei campi assunti nella definizione di complementarietà. In oltre, alcune coppie sono gradabili ma la negazione di uno dei due termini è tipicamente interpretata come l'asserzione dell'altro. Dire ad esempio che 'qualcuno non è disonesto implica che quel qualcuno sia onesto'. (Cruse, 1986) caratterizza questi come complementari gradabili. In molti casi, uno dei complementari gradabili è più gradabile dell'altro. In opposizione privativa , un termine è definito dall'assenza di qualcosa e l'altro è definito dalla presenza della stessa caratteristica. Quando pulito (nel senso di 'assolutamente privo di sudicio') è in opposizione a sporco (che implica presenza di sudicio) esiste un'opposizione complementare perché sono possibili solo due condizioni: avere il sudicio o non averlo. Ma se pulito viene usato nel senso di 'relativamente privo di sudicio', allora si può trovare in opposizione con sporco nel senso di 'relativamente dotato di sudicio', il che rende l'opposizione un'opposizione di contrari. In altri casi gli aggettivi sono naturalmente complementari o contrari, ma l'utilizzo diverso che ne possiamo fare indica un diverso senso dell'aggettivo. Ad esempio vivo/morto descrivono uno stato complementare ma se vengono utilizzati come gradabili (come nel caso di molto vivo) la natura della loro relazione di antonimia cambia, diventando contrarietà. Figura 2.1: Tipologie di antonimia Semantica Distribuzionale Il termine “Semantica Distribuzionale” (Sahlgren, 2006) definisce una famiglia di approcci all'analisi del significato (con particolare attenzione alla dimensione lessicale) nati in linguistica computazionale e nelle scienze cognitive. Tali modelli condividono una prospettiva empiristica e si basano sull'ipotesi che la distribuzione statistica delle parole nei contesti giochi un ruolo determinante nel caratterizzare il loro comportamento semantico. Al di là di questa assunzione condivisa, i modelli di semantica distribuzionale differiscono per le tecniche matematiche e computazionali impiegate per estrarre e modellare le statistiche di co-­‐occorrenza delle parole nei corpora e per le proprietà semantiche che cercano di rappresentare distribuzionalmente. Nonostante queste differenze, tuttavia, si tratta di un modello generale del significato lessicale, che formula ipotesi precise e verificabili sperimentalmente sul formato delle rappresentazioni semantiche e sul modo in cui vengono costruite. Nel paradigma distribuzione della rappresentazione semantica, il lessico viene concepito come uno spazio metrico i cui elementi -­‐ le parole -­‐ sono separate da distanze che dipendono dal loro grado di similarità semantica. Quest'ultima viene misurata attraverso distribuzioni statistiche di co-­‐occorrenza delle parole nei testi, assumendo come principio epistemologico fondamentale la cosiddetta ipotesi distribuzionale, secondo la quale due parole sono tanto più simili dal punto di vista semantico, quanto più tendono a ricorrere in contesti linguistici simili. L'ipotesi distribuzionale è correlata alle “discovery procedures” , procedure tipiche della tradizione strutturalista americana, pensate per produrre automaticamente la corretta grammatica di una lingua a partire da un corpus. Più in generale, l'ipotesi distribuzionale assume come chiave fondamentale per esplorare le proprietà paradigmatiche del lessico la ricostruzione dei rapporti sintagmatici che intercorrono tra i suoi elementi nei contesti linguistici. Questo modello trova una caratterizzazione fondamentale nelle parole del linguista inglese (Firth, 1957): You shall know a word by the company it keeps. A livello cognitivo, questo corrisponde a un modello del lessico mentale in cui i significati non sono organizzati come i sensi di un dizionario, ma secondo rappresentazioni contestuali, come descritto da (Charles, 2000): “an abstraction of information in the set of natural linguistic context in which a word occurs”. Nonostante la sua lunga storia, l'ipotesi distribuzionale ha guadagnato nuovo slancio grazie all'attuale disponibilità di corpora testuali di grandi dimensioni e di tecniche statistiche più sofisticate per l'estrazione degli schemi distribuzionali dei lessemi. Questo ha permesso di concretizzare l'ipotesi distribuzione in modelli computazioni per la costruzione di spazi semantico-­‐
lessicali, che sono stati poi applicati alla simulazione di diversi aspetti della competenza semantica. Le rappresentazioni semantiche basate sugli spazi distribuzionali sono state utilizzate per modellare la selezione di termini sinonimi (Thomas K Landauer, 1997), priming (Michael N Jones, 2006) e comprensione della metafora (Kintsch,
Metaphor
comprehension:
A
computational theory, 2000). Quello che accomuna le differenti implementazioni computazionali dell'ipotesi distribuzionale è l'assunto che quantificare la similarità semantica tra due parole sia equivalente a valutare la misura in cui si equivalgono i contesti linguistici in cui tali parole ricorrono. I modelli possono comunque differire per vari parametri, legati tipicamente ai diversi fini teorici e applicativi di riferimento per ciascun modello. La nozione di spazio semantico si basa su un'analogia con lo spazio geometrico, il contenuto semantico di una parola è rappresentato dalla sua posizione in uno spazio definito da un sistema di coordinate, determinato dai contesti linguistici in cui tale parola può ricorrere. Alla base dei modelli di semantica distribuzione risiede l'idea che due parole che tendono a combinarsi con elementi linguistici simili si collocano anche in punti dello spazio semantico più vicini rispetto a quelli occupati da parole che invece si distribuiscono in maniera diversa nel testo. Questa assunzione è formalizzata rappresentando ogni parola come un vettore a n dimensioni, ognuna delle quali registra il numero di volte in cui la parola in esame compare in un certo contesto. Ogni parola da esaminare viene quindi rappresentata come una riga di una matrice in cui le colonne corrispondono al numero di volte in cui la parola viene trovata in un determinato contesto. I modelli computazionali di semantica distribuzionale presentano differenze in termini della nozione di contesto che adottano. La versione più comune di questi modelli è costituita da vettori che che registrano co-­‐occorrenze di parole in un testo. Affinché sia possibile determinare la posizione di due parole, è necessario comparare i loro vettori rispetto a tutte le dimensioni che li compongono. Maggiore è il numero di dimensioni in cui i vettori presentano valori simili, maggiore è la loro vicinanza nello spazio e, in base all'assunto di fondo dell'ipotesi distribuzionale, la similarità semantica delle corrispondenti parole. Una delle misure usate più comunemente per misurare la vicinanza spaziale tra due vettori è il coseno dell'angolo che essi formano. Se i vettori sono geometricamente allineati su sulla stessa linea, nella stessa direzione, l'angolo che formano misura 0° e il coseno misura 1, che indica massima similarità. Se i due vettori invece sono indipendenti, il loro angolo è vicino a 90° e il coseno di 90° è uguale a 0, il che indica assenza di similarità. Figura 3.1: Distanza tra termini rappresentati come vettori Nella figura precedente, ad esempio, si ha distanza massima tra i termini cane e gatto, che risultano ortogonali in quanto formano tra loro un angolo di $90°, che implica assenza di similarità. Il vettore rappresentativo del termine levriero è più vicino a cane (forma infatti con il vettore di cane un angolo di $15° rispetto al vettore di gatto, con il quale forma un angolo di $75°. Il coseno dell'angolo tra i vettori di cane e levriero misura 0.96, che essendo un numero molto vicino a 1, indica alta similarità tra i due termini. Il coseno dell'angolo tra i vettori di levriero e gatto, invece, misura 0.25, che indica una bassa similarità tra i due termini. I modelli di semantica distribuzionale definiscono il significato di una parola in base alla posizione che questa occupa all'interno dello spazio multidimensionale determinato dalla base contestuale. Questi modelli adottano quindi un modello di rappresentazione semantica diametralmente opposto rispetto a quello tipico della tradizione linguistica e cognitiva, fondato sull'utilizzo di un metalinguaggio formale costituito da strutture simboliche quali reti semantiche, tratti etc. Il vettore che rappresenta una parola non ha nessun valore semantico intrinseco ma viene utilizzato solo al fine di determinare la posizione della parola stessa nello spazio e la distanza rispetto alle altre parole. Il significato deriva solo dalle configurazioni dei punti nello spazio, collocati secondo rapporti proporzionali al loro gradi di similarità distribuzionale. Le dimensioni che costituiscono il vettore non sono direttamente interpretabili, né associabili a simboli concettuali, ma corrispondono a tratti tipici delle rappresentazioni semantiche tradizionali. I modelli distribuzioni differiscono anche dai modelli relazionali basati su reti semantiche (Quillian, 1967) o su reti lessicali, quali ad esempio WordNet (Fellbaum, WordNet: An electronic lexical database, 2001). Gli elementi dello spazio sono parole e non entità concettuali o sensi, come avviene nelle reti semantiche. Inoltre in questi modelli il contenuto semantico di un lessema è definito solo in termini di similarità distribuzionale, tradotti in termini di distanze nello spazio. La differenza più sostanziale risiede quindi nelle relazioni che le legano. Le connessioni tra i nodi delle reti semantiche sono distinte sul piano qualitativo (iperonimia, meronimia, etc.), inoltre, nonostante ci siano stati molti tentativi per definire metriche per calcolare la distanza fra due nodi concettuali di una rete, la rete mantiene una struttura intrinsecamente discreta. Gli spazi di parole hanno, invece, una struttura puramente quantitativa, dato che, parallelamente a quanto avviene nello spazio geometrico, l'unica metrica da considerare è quanto sono distanti due parole. Un aspetto importante della competenza lessicale catturato dai modelli semantico-­‐distribuzionali, è costituito dai giudizi di similarità semantica tra parole. Maggiore è il valore del coseno, minore è la distanza tra le due parole nello spazio distribuzionale. Parole più simili dal punto di vista semantico (come ad esempio animale e cane) riporteranno valori di coseno più elevati rispetto a parole che non hanno similarità semantiche. L'ipotesi distribuzionale trova quindi corrispondenza con le intuizioni semantiche dei parlanti e la similarità di significato tra due termini lessicali può essere definita attraverso la loro proiezione in uno spazio costruito su base distribuzionale. Le rappresentazioni lessicali basate su spazi distribuzionali possono essere utilizzate per la modellazione di vari tipi di evidenza comportamentale legata alla distanza semantica tra le parole (ad esempio in compiti di priming semantico (Jones, 2006) o di riconoscimento di parole (McDonald, 2001)) in modo più accurato di quanto avvenga utilizzando modelli basati sul lessico basati su rappresentazioni simboliche con reti lessicali (ad esempio il già citato WordNet). La semantica distribuzionale offre anche un interessante punto di vista nel rapporto tra significato e contesto. Secondo una tradizione consolidata nelle scienze cognitive e in linguistica, rappresentare il contenuto semantico di una parola consiste nella sua proiezione su un'ontologia di simboli concettuali. Nell'ambito della rappresentazione della conoscenza e della linguistica computazione, per ontologia si intende la rappresentazione in linguaggio formale di un sistema di categorie concettuali. Nel caso della descrizione del lessico, le ontologia sono sistemi di simboli che rappresentano il contenuto semantico dei lessemi. Diversi significati di una stessa parola, vengono rappresentati da diversi elementi dell'ontologia, mentre l'architettura del sistema di concetti si fa carico delle relazioni inferenziali tra i diversi sensi delle parole. Quello che caratterizza maggiormente questo tipo di rappresentazioni è che i significati vengono modellati come entità indipendenti dal contesto Il significato lessicale è soggetto a processi di acquisizione, modulazione e cambiamento, ma questi aspetti sono indipendenti dal modo in cui si rappresenta l'informazione semantica, che viene poi usata e applicata nei contesti. Una conseguenza di questo paradigma è la difficoltà delle rappresentazioni di tipo simbolico a modellare processi dinamici che si realizzano in contesti testuali concreti. I sensi delle parole sono realtà multidimensionali, dai confini incerti e sottodeterminatiì che difficilmente si riescono a proiettare su sistemi di simboli concettuali non sufficientemente adeguati a rappresentarne la complessità strutturale e la variabilità. La rappresentazione lessicale, per essere soddisfacente, deve essere in grado di descrivere la natura proteiforme del lessico e delle sue dinamiche dipendenti dai rapporti che si creano tra i lessemi sull'asse sintagmatico, come descritto da (Pustejovsky, 1995). Le ontologie di simboli concettuali rappresentano il contesto in maniera essenzialmente discriminativa, agendo come fattore di disambiguazione che permette la selezione, all'interno del repertorio di sensi di una parola, del significato appropriato per una determinata situazione di utilizzo. La metafora dello spazio di parole ribalta del tutto questa prospettiva, assegnando al contesto un ruolo costitutivo del significato. In questo modo il contenuto informativo di una parola è radicato nei contesti linguistici da cui emerge. Si ottiene quindi un modello di rappresentazione semantica sensibile al contesto e dinamica, che offre prospettive nuove nella re-­‐impostazione del rapporto tra rappresentazione del significato e modellazione delle sue dinamiche. La semantica distribuzionale applicata allo studio delle relazioni di iponimia e antonimia I modelli distribuzionali caratterizzano fenomeni di similarità semantica tra parole vicine nello spazio distribuzionale, ma non rappresentano i tipi di relazioni semantiche che intercorrono tra parole (cane è simile ad animale e gatto, ma con relazioni diverse). Questo problema si ha anche nel cercare di trattare relazioni paradigmatiche quali l'iperonimia e l'antonimia. Problematiche rilevate Nei modelli distribuzionali, le parole sono collocate in spazi semantici comuni, in base alle loro rappresentazioni contestuali; la distanza tra parole è misurata tenendo conto della similarità semantica. Tale distanza è una relazione simmetrica: se una parola, A, è vicina a una parola B nello spazio semantico, questo implica che B sia vicina ad A. Il modello non riesce a caratterizzare le diverse proprietà semantiche delle relazioni che legano le parole vicine. La distanza tra le parole è poco funzionale nel descrivere relazioni di tipo asimmetrico, come l’iponimia. Considerando, ad esempio, la coppia animale-­‐
cane, legata dalla relazione di iponimia, si può assumere che, se l’essere cane implica l’essere animale, l’essere animale non implica l’essere cane, essendo animale un termine più ampio di cane. Gli iperonimi sono termini semanticamente più ampi rispetto ai loro iponimi a livello estensionale, (animale si riferisce a un insieme più ampio di entità rispetto a cane). A livello intensionale, invece, l'iponimo di un termine risulta essere più informativo del suo iperonimo (cane ha proprietà più informative rispetto a quelle di animale, si può assumere infatti che per cane siano vere proprietà non vere per tutti gli animali, es. abbaiare), quindi i sopraordinati risultano meno informativi rispetto ai concetti di livello base. Se si immaginano i concetti organizzati in una gerarchia di categorie, che va dall'estremamente generico allo specifico, possiamo pensare che la classe generica comprenda un alto numero di elementi. Le categorie più specifiche permettono maggiore accuratezza nella categorizzazione dei membri: sapere che qualcosa è un cane ci permette di inferire una serie di proprietà di quell’elemento. Di tutte le possibili categorie in una gerarchia, il livello base è il livello intermedio, compromesso tra l’accuratezza della classificazione data dal livello più generico e il potere predittivo del livello più specifico (Murphy,
2003). Le categorie di base rappresentano il livello di caratterizzazione più naturale (Murphy G. L., 1997) dato che sono quelle prodotte più spesso, riconosciute più velocemente e apprese per prime. Recentemente sono stati proposti diversi modelli distribuzionali per la rappresentazione di relazioni asimmetriche ( (Weeds, 2004), (Clarke, 2009)), basati sull’ipotesi di inclusione distribuzionale, utilizzata anche da (Kotlerman,
2010) per l’identificazione del Lexical Entailment (implicazione lessicale). Il lexical Entailment modella relazioni quali si riferisce a e implica ed è parte di un quadro teorico più generale per l’inferenza semantica, chiamato Textual Entailment. Textual Entailment (implicazione testuale) è un paradigma di modellazione per l’inferenza semantica emerso in anni recenti (Giampiccolo, 2009). Essendo un quadro teorico generico, può essere utilizzato in un ampio spettro di applicazioni quale l’estrazione di informazione e il recupero di documenti. Il Textual entailment è una relazione direzionale tra due frammenti di testo, t e h. t implica h se il parlante che legge t inferirà che h è molto probabilmente vero (Dagan, 2006). Ad esempio, dalla frase seguente: ‘Sono stati venduti tutti i biglietti per il concerto dei Beatles a Liverpool’, possiamo dedurre che i Beatles abbiano tenuto un concerto a Liverpool. Un elemento lessicale e implica un altro elemento a se esistono alcuni testi naturali (non aneddotici) che contengono e che implica \texit{a in modo tale che riferimenti al significato di a possano essere implicati solo dal significato di e nel testo. Un sistema di questo tipo si baserà quindi sulla regola e!textit{a. Ad esempio, la regola produrre! deporre è valida in contesti in cui il produttore è gallina e il prodotto è uovo. Quindi il lexical entailment è una relazione concettualmente più vasta rispetto a quella di iperonimia, dato che l’inferenza può essere determinata dalla sinonimia, dall’iperonimia e dalla meronimia. Per quanto riguarda la relazione di antonimia, al momento non si rilevano tentativi di successo nel distinguere la relazione di sinonimia da quella di antonimia, utilizzando modelli distribuzionali standard. Probabilmente questo è dovuto alla similarità dei contesti d'occorrenza di sinonimi ed antonimi. (Mohammad, 2008) ad esempio, hanno rilevato che le misure di similarità distribuzionale tipicamente falliscono nel distinguere i sinonimi da coppie di parole contrastive. Hanno infatti verificato che, applicando una misura di similarità semantica a un insieme di coppie di antonimi altamente contrastanti, a coppie di sinonimi e a coppie di parole legate da una relazione casuale, le coppie legate da relazione di antonimia e le coppie legate da relazione di sinonimia, tendevano ad avere una similarità distribuzionale media più simile, rispetto a quanto avveniva tra antonimi e coppie di parole legate da relazioni casuali e sinonimi e coppie di parole legate da relazioni casuali. E' stato anche provato che, in media, le coppie di antonimi hanno un grado di similarità distribuzionale maggiore rispetto ai sinonimi. (Miller, 1991) ha effettuato un esperimento di sostituibilità, nel quale la relazione tra similarità semantica e contestuale è stata investigata per coppie di nomi. Le coppie utilizzate presentavano diversi gradi di similarità semantica. La similarità semantica è stata valutata utilizzando classificazioni soggettive; la similarità contestuale stimata utilizzando il metodo di ordinamento dei contesti. Il risultato ha mostrato una relazione lineare inversa tra la similarità di significato e la differenziazione dei contesti. In media, per parole della stessa lingua ricavate dalle stesse categorie sintattiche e semantiche, quanto più spesso due parole possono essere sostituite negli stessi contesti, quanto più il loro significato è giudicato simile. In base ai risultati di questo esperimento, quindi, ci devono essere delle indicazioni contestuali che permettano ai parlanti di distinguere tra sinonimi ed antonimi. Tali differenze, ad ogni modo, non vengono catturate dalle attuali misure di similarità semantica, il che conduce all'ipotesi che l'antonimia e la sinonimia siano simili, a livello distribuzionale, rendendo difficile utilizzare tali metodi per la classificazione di relazioni di antonimia. Data la particolare condizione, di similarità e differenza, i lavori di linguistica computazionale hanno talvolta incluso l'antonimia sotto la classificazione di similarità semantica. Ricerche recenti hanno tuttavia imposto una distinzione rigida tra similarità semantica e correlazione semantica (semantic relatedness). La correlatezza semantica è un concetto più generale della similarità semantica; entità simili sono semanticamente correlate in virtù della loro similarità (banca-­‐ società fiduciaria), ma entità dissimili possono comunque avere una relazione semantica quale la meronimia (macchina-­‐ruota) e antonimia (caldo-­‐freddo) o da una qualsiasi relazione funzionale, o da frequente associazione nei contesti d’uso (matita-­‐carta) (Budanitsky, 2006). Gli antonimi appartengono alla seconda e più ampia categoria di correlatezza semantica e non dovrebbero, quindi, essere utilizzate misure di similarità semantica per individuare questo tipo di relazione, come evidenziato da (Lin,
2003). E' stata introdotta una varietà di misure per il calcolo della similarità semantica basate su corpora che tentano di identificare similarità semantiche calcolando la loro similarità distribuzionale ( (Hindle, 1990); (Lin D. , 1998)). Tali misure si sono rivelate efficienti nell'individuare coppie di parole legate da relazione di sinonimia; si sono rivelate anche molto meno accurate nel classificare antonimi e parole dissimili, classificandole ripetutamente come parole semanticamente simili. Ad ogni modo, nonostante le difficoltà, ci sono stati solo pochi studi effettuati con lo scopo di distinguere gli antonimi dai sinonimi, al contrario la maggioranza degli studi effettuati si sono focalizzati esclusivamente sulla relazione di sinonimia o di antonimia. E' quindi possibile effettuare una classificazione relativa alla relazione di antonimia utilizzando i metodi distribuzionali? E' possibile utilizzare tali metodi per distinguere le relazioni di antonimia dalle relazioni di sinonimia, pur avendo queste distribuzioni simili nei testi? Primi esperimenti di analisi distribuzionale della relazione di iperonimia Come accennato in precedenza, il problema più rilevante che si ha nel cercare di individuare le relazioni di iperonimia utilizzando metodi distribuzionali, è dato dal fatto che, nei modelli distribuzionali, la distanza tra parole viene rappresentata come una relazione simmetrica. L'iperonimia non è una relazione simmetrica, pertanto, per identificarla in maniera distribuzionale, una delle strade percorribili consiste nell' individuare una misura di similarità direzionale (non simmetrica), che riesca a definire le caratteristiche della relazione di iperonimia. A tale proposito sono state investigate le capacità di diverse misure di similarità semantica direzionali nel riconoscimento delle relazioni di iperonimia. Sono state anche proposte due misure nuove, create ad hoc per il riconoscimento e la classificazione di questa relazione, che tentano di implementarne alcune caratteristiche fondamentali. Per indagare la capacità delle misure di similarità direzionali nel classificare la relazione di iperonimia, abbiamo valutato il grado di correttezza sia nell’identificare l’iperonimo di un nome target, che nel discriminare termini legati dall’iperonimia da termini legati da relazioni simmetriche, come i co-­‐
iponimi. Al momento gli esperimenti si sono svolti sull'Inglese, in modo da avere una migliore comparabilità con lo stato dell'arte internazionale. Come descritto nel Capitolo 4, i termini lessicali sono stati rappresentati come vettori di caratteristiche distribuzionali estratte dalla matrice TypeDm, derivata da Distributional Memory (DM) (Baroni, 2010). DM rappresenta i dati distribuzionali come un insieme di tuple pesate ((p1, l, p2), w) dove p1 e p2 sono parole, l è la dipendenza sintattica che le lega e w è il peso che stima la salienza di quella tupla utilizzando la Local Mutual Information (LMI) calcolata sulla frequenza dei legami. Esempi di tuple possono essere: ((marine own bomb) 40.0) o ((teacher own bomb) 5.2). Da questi esempi è possibile vedere che a ogni coppia di parole legate da una certa dipendenza sintattica, si associa il peso dato dalla frequenza dei legami. Il peso di marine own bomb è quindi, ovviamente, maggiore del peso di teacher own bomb dato che sarà molto più probabile veder co-­‐occorrere own bomb con marine che con teacher. La Mutua Informazione (MI) è una misura statistica che permette di confrontare la probabilità di incontrare una coppia di parole (bigramma) rispetto alla probabilità di incontrare i suoi costituenti, considerati come mutuamente indipendenti. Dato che la Mutua Informazione è estremamente sensibile agli eventi rari, i bigrammi formati da hapax avranno un valore di Mutua Informazione molto alto. Questo avviene perché la Mutua Informazione tende a privilegiare i casi isolati di collocazione, riuscendo in questo modo a eliminare le false collocazioni, ma diventando sproporzionata nei casi poco frequenti. La LMI è una variante di MI utilizzata per ridurre l’impatto dei dati poco frequenti. TypeDm contiene 30.693 lemmi e 25.336 link diretti e inversi formati da dipendenze sintattiche. Le misure sono state valutate su un corpus in lingua Inglese derivato dal dataset BLESS ( (Baroni, How we BLESSed distributional semantic evaluation,
2011)), che consiste di triplette che esprimono una relazione tra concetti target e concetti relatum. BLESS è composto da 200 concetti target, suddivisi in 17 classi (quali BIRD, FRUIT etc.). Per ogni concetto target BLESS include più parole, collegate al concetto target da una relazione semantica. Per questo esperimento è stato usato un sotto corpus derivato da BLESS formato da 14547 tuple, in modo che il termine relatum fosse attestato in TypeDM e le relazioni fossero le seguenti: •
COORD: il relatum è un co-­‐iponimo del concetto (coccodrillo-­‐lucertola) •
HYPER: il relatum è un nome che è iperonimo del concetto (coccodrillo-­‐
animale) •
MERO: il relatum è un nome che si riferisce a una parte del concetto (coccodrillo-­‐bocca) •
RANDOM-­‐N: il relatum è un nome casuale che non ha relazioni con il concetto target, o ha relazioni che non sono le precedenti (coccodrillo-­‐
scarpa). Ogni parola del test set in esame è quindi rappresentata come un vettore di dati distribuzionali relativi alla parola stessa. Sono state applicate ai vettori derivati dalle tuple tre misure direzionali allo stato dell’arte, per valutarne l’abilità nel discriminare l’iperonimia dalle altre relazioni semantiche, in particolare la co-­‐iponimia (una misura simmetrica). In base all’ipotesi di fondo, le misure di similarità distribuzionale dovrebbero attribuire un punteggio più alto alle relazioni di iperonimia, asimmetriche e direzionali. I risultati ottenuti su tre misure direzionali allo stato dell'arte sembrano confermare l'ipotesi. Innanzitutto, tutte le misure riescono a discriminare coppie che hanno un legame semantico da quelle che non lo hanno. E' stata effettuata un'analisi dei risultati utilizzando Average Precision (AP), una misura solitamente utilizzata nei compiti di recupero documenti. Per ogni misura di similarità è stata calcolata AP rispetto alle 4 relazioni di BLESS. Il massimo punteggio possibile di AP si ottiene quando tutti i relata legati al target dalla relazione in esame riportano punteggi di similarità semantica più alti rispetto ai relata non legati al target da quella particolare relazione (se in un ideale ordinamento per punteggio di similarità semantica, i relata legati al target dalla relazione in esame occorressero tutti ai primi posti). Confrontando i risultati ottenuti nel valutare le relazioni di co-­‐iponimia e quelle di iponimia si nota che tutte le misure allo stato dell'arte riportano valori di AP più alti per la relazione di co-­‐iponimia rispetto a quella di iponimia (come è possibile vedere nella tabella 4.1) , probabilmente perché queste misure di similarità sono state concepite per il riconoscimento del lexical entailment. Questo fa sì che le features di inclusione che usano siano soddisfatte anche dai coordinati. Tabella 4.1: Valori di Average Precision (AP) per le misure direzionali allo stato dell’arte Utilizzare misure di similarità direzionali si rivela quindi essere una strada promettente per la classificazione dell’iperonimia, ma l’analisi delle misure allo stato dell’arte mostra che è possibile migliorarle perché siano accurate nel riconoscimento di tale relazione. A tale proposito sono state sviluppate due nuove misure distribuzionali direzionali, che sfruttano le proprietà linguistiche della relazione di iperonimia. La prima misura implementata (invCL) (Lenci, 2012) è basata sull’idea che un termine semanticamente più ampio dovrebbe poter essere trovato anche in contesti nei quali il termine semanticamente meno ampio non è utilizzato. Se v è un termine semanticamente più ampio di u, le proprietà distribuzionali di u saranno anche proprietà distribuzionali di v, al contrario ci saranno proprietà di v che non fanno parte delle proprietà distribuzionali caratterizzanti di u. Considerando la coppia di termini animale-­‐cane, si può assumere che le proprietà distribuzionali di animale comprendano le proprietà di cane (tra le proprietà di animale si potrà trovare, ad esempio, “abbaiare”, caratterizzante l'entità cane), ma che le proprietà di cane non comprendano molte delle proprietà di animale (fra le proprietà di animale vi sarà ad esempio “miagolare”, che non è caratterizzante di cane). E' stata quindi sviluppata una misura che tiene conto non solo l’inclusione delle proprietà del termine iponimo in quelle dell’iperonimo, ma anche la non-­‐inclusione delle proprietà dell’iperonimo in quelle dell’iponimo. La seconda misura (COL) (Benotto, 2013) è basata sull'ipotesi che i termini superordinati si applicano a un insieme di termini che appartengono alla stessa categoria. Si assume, in altri termini, che gli iponimi di un iperonimo comune formino un insieme di termini contrastivi in relazione all’iperonimo. Si può dire che, considerando gli iponimi del termine animale, termini come cane, gatto, cavallo formano l’insieme dei termini di livello più basso rispetto ad animale e sono in contrasto tra loro avendo proprietà diverse e quindi proprietà distribuzionali diverse. Se un termine v è semanticamente più ampio di un termine u le proprietà di u saranno incluse nelle proprietà distribuzionali di v (le proprietà distribuzionali di cane sono presenti anche tra le proprietà di animale), è pur vero che anche le proprietà degli altri iponimi complementari a u rispetto a v saranno incluse nelle proprietà di v (considerando gatto come complementare di cane rispetto all’iperonimo animale, si può assumere che ci siano anche molte proprietà di gatto che compaiono tra quelle di animale). Il termine più vicino all’iponimo è stato individuato utilizzando il coseno (essendo il coseno la misura che meglio individua similarità simmetriche, come quella di co-­‐iponimia) che ha permesso di individuare, per ogni iponimo, il co-­‐iponimo più simile. Si suppone quindi che l’iponimo in esame e il co-­‐
iponimo più simile a esso rispetto a v (iperonimo comune) abbiano in comune molte proprietà distribuzionali. Selezionare solo le proprietà del co-­‐iponimo che non sono caratterizzanti dell’iponimo in esame dovrebbe dare una buona approssimazione di come è fatto il complementare di tale termine. La tabella 4.2 mostra i risultati che si ottengono utilizzando queste due misure. Quello che si può vedere, confrontando anche tali dati con quelli presenti nella tabella 4.1, è che le due misure riescono a classificare la relazione di iperonimia meglio di quanto facciano le misure allo stato dell'arte (dato che il valore di Average Precision riportato per l'iperonimia è più alto di quello che si ottiene con le altre misure). Inoltre, queste misure riescono a discriminare meglio la relazione, direzionale, di iperonimia rispetto a quella, simmetrica, di coordinazione. Questo avviene perché, oltre al miglioramento della classificazione della relazione di iperonimia, i valori di average precision che si ottengono per i coordinati sono più bassi rispetto a quelli che si ottengono con le misure allo stato dell'arte. Tabella 4.2: valori di Average Precision per le misure direzionali sviluppate per il riconoscimento dell’iperonimia Raccolta dati utilizzando Amazon Mechanical Turk Nel corso di questo progetto di ricerca è stato effettuato anche un esperimento di raccolta dati effettuato utilizzando Amazon Mechanical Turk. L'esperimento è stato portato aventi in collaborazione con l' Institute for Natural Language Processing dell' Università di Stoccarda. Sono stati raccolti dati per la lingua tedesca (Università di Stoccarda) e per la lingua Inglese. Lo scopo della raccolta consisteva nel proporre a utenti selezionati insiemi di 11 parole, per ognuna delle quali veniva chiesto al parlante di fornire l'antonimo, l'iperonimo e il sinonimo ritenuto più indicato. I dati da analizzare sono stati selezionati utilizzando WordNet allineati per le tre lingue in esame, utilizzando per tutte e tre le lingue gli stessi criteri di selezione. I dati per il tedesco sono stati raccolti da Sabine Schulte im Walde, dell'Università di Stoccarda. Per l'Inglese sono stati seguiti gli stessi criteri seguiti per il tedesco, per ragioni di compatibilità. In primo luogo sono state generate liste di tutti i nomi, tutti gli aggettivi e tutti i verbi presenti nel database WordNet. Si è quindi calcolato il diverso numero di sensi per tutte le diverse parole nelle liste. L'organizzazione del lessico, in WordNet, si avvale infatti di raggruppamenti di termini con significato affine, chiamati 'synset' (dalla contrazione di synonym set), e del collegamento dei loro significati attraverso diversi tipi di relazioni. All'interno dei synset le differenze di significato sono numerate e definite. Questa rappresentazione ha semplificato la classificazione delle parole in fasce definite per numeri di senso. Per ogni parola nella lista, poi, è stata calcolata la frequenza all'interno di un corpus di riferimento. Per il tedesco, è stato utilizzato SdeWac, un corpus contenente approssimativamente 880 milioni di parole costruito estraendo il testo delle pagine web a dominio .de. Per l'inglese è stato utilizzato ukWac, un corpus di circa 2 miliardi di parole, costruito estraendo il testo delle pagine web a dominio .co.uk. Si è quindi deciso quanti stimoli utilizzare per l'esperimento. Sono stati utilizzati 99 stimoli per classe di parole, perché si è deciso di impostare tre intervalli di frequenza (ottenendo quindi 3x3=9 categorie) e 11 stimoli per ogni categoria. Le tre fasce di frequenza sono state così definite: 200-­‐2999, 3000-­‐9999 e >10000 (nella prima fascia si hanno quindi parole che sono attestate nel corpus con una frequenza maggiore di 200 e minore di 3000, nella seconda parole che hanno frequenza nel corpus compresa fra 3000 e 10000, dove 10000 è escluso e nella terza fascia si hanno parole con un'attestazione di frequenza maggiore di 10000). I diversi intervalli di polisemia sono 1, 2 e >2 (il che significa che nella prima fascia ci sono parole per cui WordNet attesta un solo significato, nella seconda fascia parole per cui WordNet attesta due significati e nella terza fascia parole per cui WordNet attesta da tre significati in su). Per ogni classe semantica (aggettivo/verbo/nome) di ogni classe di parole è stato determinato il numero di parole da selezionare. Per effettuare tale selezione è stata effettuata una proporzione sul numero totale di parole per classe semantica. Ad esempio, se la classe aggettivo per il tedesco contiene 996 parole distinte e il numero totale di tutti gli aggettivi su tutte le classi semantiche è 8582, dato che abbiamo fissato a 99 il numero di stimoli totali da raccogliere, vorremo avere 99*996/8582 = 11 aggettivi per questa classe semantica. A questo punto, per ogni classe semantica, intervallo di frequenza nei corpora e intervallo dato dal numero di sensi, è stata effettuata una scelta casuale atta a selezionare le parole da proporre. In ultima analisi, per ognuna delle lingue e per ogni categoria semantica, 9 insiemi di 11 termini da proporre agli utenti per le analisi. Le parole così selezionate sono state quindi utilizzate come input in un esperimento effettuato utilizzando Amazon Mechanical Turk (MTurk), un servizio internet di crowdsourcing che permette a chi lo utilizza (requester) di coordinare l'uso di intelligenze umane per eseguire compiti che i computer, a oggi, non sono in grado di fare L'esperimento prevedeva di fornire agli utenti 11 parole, 9 estratte secondo i criteri precedentemente descritti e 2 non-­‐parole (cioè parole che non esistono realmente nella lingua in esame); le non parole sono state inserite per verificare che a eseguire gli esperimenti fossero parlanti della lingua in esame, che sarebbero stati certamente in grado di riconoscere le non parole come tali. Per ognuna delle parole l'utente era invitato a fornire quello che, secondo la propria conoscenza di parlante, riteneva essere il miglior candidato sinonimo, iponimo o antonimo. Per quanto riguarda la sezione dei turkers abbiamo imposto come unico vincolo l'essere parlanti madrelingua Inglesi. Quindi, l'insieme degli esperimenti è stato proposto per l'esecuzione dal sistema (AMT) solo a turkers che nel profilo di registrazione al servizio hanno impostato come lingua madre la lingua Inglese. Questo era necessario perché, non potendo sapere chi avrebbe eseguito i vari insiemi di esperimenti, era necessario avere la garanzia che sarebbero stati, quantomeno, buoni rappresentanti della lingua su cui sarebbero andati ad operare. I dati ottenuti secondo i vincoli precedentemente descritti (dei quali è possibile visionare un campione nella tabella 4.3) sono stati raccolti e successivamente ripuliti eliminando i dati duplicati (è infatti possibile che più di un utente abbia indicato ad esempio, per una stessa parola, il medesimo antonimo/sinonimo/iponimo). Abbiamo quindi ottenuto liste di stimoli e corrispondenti sinonimi/antonimi/iponimi, ottenuti in maniera manuale a partire dai giudizi degli utenti. Tabella 4.3: Esempi di stimoli forniti con relative risposte e frequenza delle risposte Primi esperimenti per il trattamento semantico-­‐distribuzionale degli antonimi Il problema più rilevante che si incontra utilizzando le misure di similarità distribuzionale per il riconoscimento e la classificazione della relazione di antonimia, come già accennato in precedenza, risiede nel fatto che antonimi e sinonimi tendono a distribuirsi nel testo in maniera simile, ovvero ad occorrere in contesti simili. Si prenda ad esempio la coppia di aggettivi antonimi nuovo/vecchio. E' possibile che entrambi ricorrano in una frase del tipo: 'Ho perso il mio cappello nuovo', 'Ho perso il mio cappello vecchio' . In questo senso, ovviamente, si tende a non ottenere risultati rilevanti nell'utilizzo dei metodi distribuzionali per la classificazione di questo tipo di relazione semantica. L'utilizzo di metodi distribuzionali appare anche, in un contesto come quello presentato sopra, di difficile utilizzo per l'eventuale distinzione di relazioni di antonimia da relazioni di sinonimia. A tale proposito, come effettuato per la relazione di iperonimia, è necessario individuare delle peculiarità della relazione di antonimia, che possano essere implementate al fine di distinguere tale relazione dalla sinonimia. In un primo, semplice esperimento, è stata effettuata e conseguentemente testata, la seguente ipotesi: se una coppia di antonimi presenta una forte similarità distribuzionale, perché i due termini che la compongono tenderanno ad occorrere in contesti simili, è pur vero che l'uno dovrebbe occorrere ancora più frequentemente in contesti in cui occorre la negazione dell'altro. Se u e v sono due termini legati da relazione di antonimia, si assume quindi che u occorra più frequentemente, e quindi sia più simile, a non-­‐v di quanto lo sia a v. Ovvero, si assume che, riprendendo l'esempio utilizzato in precedenza, non-­‐
nuovo sia più simile a vecchio di quanto non lo sia nuovo. Per effettuare tale esperimento è stato utilizzato un corpus di lingua Inglese costituito dall'unione di tre corpora: ukWaC, Wikipedia e BNC. ukWaC è stato raccolto come descritto nella seziona precedente, il suo scopo è essere utilizzato come corpus di linguaggio comune, paragonabile, per quanto riguarda l'eterogeneità dei documenti, alle risorse bilanciate tradizionali. BNC (British National Corpus) è un corpus sviluppato con l'intenzione di rappresentare un'ampia varietà dell'Inglese corrente, sia scritto che parlato. Il corpus è costituito da 100 milioni di parole. Per quanto riguarda Wikipedia, il corpus è stato ottenuto scaricando l'intero contenuto dell'enciclopedia on-­‐line Wikipedia per la lingua Inglese e consiste di circa 600 milioni di parole. I tre corpora sono stati uniti per crearne uno più grande perché, come illustrato in precedenza, i metodi distribuzionali necessitano di grandi quantità di dati per essere efficienti. Tutti e tre i corpora, inoltre, presentano annotazioni atte a descrivere le categorie grammaticali di ogni termine (Part of Speech, PoS tagging). Il metodo è stato testato su due diverse liste di antonimi precedentemente selezionati. La prima lista è stata ottenuta attraverso la raccolta dati effettuata utilizzando Amazon Mechanical Turk descritta nel paragrafo precedente. La seconda lista utilizzata è basata su un dataset reso disponibile da (Mohammad
S. , 2013) costituito da una lista di 1358 antonimi estratti da WordNet, all'interno dei quali sono stati selezionati i soli aggettivi, per un totale di 958 coppie di antonimi. Nel corpus vengono quindi cercate le occorrenze di tali termini, sia nella loro versione ``positiva'' , che ``negativa'' (ad esempio, si estraggono sia le occorrenze di sweet che quelle in cui sweet occorre in concomitanza con la negazione not, sia esso preceduto immediatamente (occorrenza nel testo di strutture linguistiche come not sweet) o con un intervallo di una parola, tipicamente un pronome (occorrenza nel testo di strutture linguistiche come not very sweet). Per ogni parola che costituisce le coppie, è quindi possibile costruire i rispettivi vettori di co-­‐occorrenze, selezionando come co-­‐occorrenti le parole che occorrono in una finestra di cinque parole antecedenti e successive alla parola in esame nel corpus. Ognuna delle due possibili accezioni (positiva o negativa) dei termini in esame, viene rappresentata come un vettore distribuzionale distinto (in questo caso esiste un vettore distribuzionale per sweet e uno per not-­‐sweet. A questo punto viene misurata la similarità semantica tra i termini che costituiscono le coppie. Inoltre, per validare la teoria proposta, viene misurata anche la similarità semantica tra un membro negativizzato della coppia (not-­‐u) e il positivo dell'altro (v) e viceversa. Per entrambe le liste di antonimi, i risultati non sono stati risolutivi. In entrambi i casi, infatti, la teoria per cui la similarità tra una parola e l'opposto del suo antonimo era maggiore di quella rilevata per la similarità tra la parola stessa e il suo antonimo, si attestava tra il 30% e il 40%. Un secondo esperimento è stato effettuato, utilizzando gli stessi dati e le stesse modalità, costruendo il non-­‐concetto in maniera leggermente diversa rispetto a quanto fatto in precedenza. Per creare il contesto distribuzionale che definisca in maniera caratteristica il non-­‐concetto, si è infatti pensato di escludere dalle sue proprietà distribuzionali tutte quelle in comune con il concetto nella sua accezione positiva. In altri termini, tutte le proprietà distribuzionali di v non vengono incluse nel vettore che descrive le proprietà distribuzionali di non-­‐v. E' stato assunto che in questa maniera fosse possibile individuare le proprietà distribuzionali salienti che caratterizzano il non-­‐concetto. Inoltre, eliminare le proprietà distribuzionali comuni alla versione "positiva" e "negativa" del termine, dovrebbe implicare la creazione di un concetto di negatività esclusivo, teoricamente più simile all'antonimo del positivo che al positivo stesso. Anche in questo caso viene misurata la similarità semantica tra i termini che costituiscono le coppie, valutando anche la similarità semantica tra un membro negativizzato della coppia (not-­‐u) e il positivo dell'altro (v) e viceversa. I risultati degli esperimenti preliminari effettuati sulle liste di antonimi descritte in precedenza non hanno dato ancora risultati determinanti. L'analisi dei risultati ha però fornito interessanti spunti sulle ragioni che possono portare ad avere questo tipo di risultato. In primo luogo le liste di antonimi utilizzate, necessitano di un miglioramento sostanziale, sia per quanto riguarda la costituzione delle coppie. In molti casi infatti l'antonimo riportato per un dato termine, non è quello prototipico, o comunque quello che ci si aspetterebbe. Si prenda ad esempio la coppia inexperienced-­‐inured, estratta dal dataset di (Mohammad S. , 2013). L'antonimo che ci aspetteremmo di rilevare, per inexperienced non è inured, ma experienced, come suggerito dall' Oxford Thesaurus of English. I dati costruiti a partire da Amazon Mechanical Turk invece risentono della scelta dei termini da valutare, operata a partire da dati estratti da WordNet, impiegando come unico criterio un bilanciamento tra termini appartenenti a diverse fasce di frequenza e di polisemia, all'interno delle quali i termini da analizzare sono stati estratti in maniera casuale. Tali coppie di antonimi risentono anche delle valutazioni fornite dagli utenti, che possono aver indicato in maniera errata o approssimativa, quello che per loro risulta essere il miglior antonimo di un termine dato. Inoltre i dati possono essere falsati da una scarsa attestazione dei termini che compongono le coppie all'interno del corpus in esame. A tal proposito è in atto una ricostituzione delle liste di antonimi in cui, non solo vengono validati i dati, ma viene anche verificato che i dati siano presenti nel corpus al di sopra di una determinata soglia di frequenza, che verrà stabilita in modo da non ridurre eccessivamente il numero di coppie su cui effettuare i test. Varrà poi la pena cercare di capire se questo metodo privilegia un tipo particolare di relazione antonimica, si vorrà capire, cioè, se il metodo in analisi riporta risultati migliori nella classificazione di antonimi gradabili o complementari, o ancora se riporta risultati migliori su quelle coppie di antonimi in cui uno dei due termini è costruito a partire dall'altro, con l'aggiunta di un prefisso o di un suffisso di negazione. Conclusioni e Proposte Future Lo scopo di questo lavoro consiste nell'esplorazione delle potenzialità e dei limiti dell'approccio distribuzionale come modello del lessico semantico. E' stato ampiamente illustrato come i modelli distribuzionali presentino difficoltà e sfide interessanti per quanto riguarda l'estrazione di relazioni paradigmatiche che intercorrono fra termini in un testo, a causa delle particolarità distribuzionali di tali relazioni. In particolare, le relazioni trattate in questo lavoro sono la relazione di iponimia/iperonimia e la relazione di antonimia. In entrambi i casi ho proceduto nell'analizzare le peculiarità linguistiche delle relazioni in esame, nonché lo stato dell'arte per quanto riguarda l'utilizzo delle metodologie basate sull'approccio distribuzionale per l'estrazione e la classificazione di queste relazioni. Per quanto riguarda la relazione di iponimia/iperonimia, l'analisi delle caratteristiche linguistiche della relazione, mi ha permesso di individuare la sua direzionalità, permettendomi di comprendere la ragione per cui i metodi distribuzionali attualmente in uso falliscono nel riconoscimento di questa relazione. La similarità semantica viene, infatti, tipicamente computata utilizzando misure simmetriche, quali il coseno. Supponendo infatti che i significati delle parole possano essere dedotti dal contesto, verificare che due parole sono in relazione tra loro significa verificare il grado di similarità tra le due parole, ovvero il numero di contesti che condividono. Questo assunto non è vero per la relazione di iponimia, che è una relazione asimmetrica. Sono state quindi investigate le misure asimmetriche allo stato dell'arte, comunemente utilizzate nello studio del lexical entailment (implicazione lessicale), che si sono rivelate abili nel discriminare coppie di termini che hanno un legame semantico da quelle che non lo hanno. Le stesse misure però non si sono rivelate in grado di discriminare tra termini co-­‐iponimi e termini in relazione di iperonimia/iponimia. Gli iperonimi sono termini semanticamente più ampi rispetto ai loro iponimi a livello estensionale, (animale si riferisce a un insieme più ampio di entità rispetto a cane). A livello intensionale, invece, l'iponimo di un termine risulta essere più informativo del suo iperonimo (cane ha proprietà più informative rispetto a quelle di animale, si può assumere infatti che per cane siano vere proprietà non vere per tutti gli animali, es. abbaiare), quindi i sopraordinati risultano meno informativi rispetto ai concetti di livello base. Sfruttando queste proprietà della relazione di iperonimia, ho quindi implementato due nuove misure direzionali, specificamente concepite per il riconoscimento di questa relazione. I risultati sino ad ora ottenuti, hanno permesso di dimostrare che i metodi distribuzionali risultano efficaci e funzionali al riconoscimento ed alla classificazione di relazioni di iponimia. Per quanto riguarda la relazione di antonimia, le misure attualmente allo stato dell'arte si rivelano fallaci sia nella classificazione dei termini tra i quali intercorre questa relazione, sia nella discriminazione tra la relazione di sinonimia e di antonimia. Questo avviene perché le relazioni di antonimia e sinonimia tendono a distribuirsi in maniera simile nei testi. Frequentemente, infatti, termini sinonimi e termini antonimi, occorrono negli stessi contesti. Questo rende impossibile utilizzare i metodi distribuzionali standard per il riconoscimento di questa relazione. La metodologia sviluppata si basa sull'assunto che, data una coppia di antonimi, uno dei due membri dovrebbe essere più simile alle occorrenze della versione negata dell'altro, piuttosto che di quella positiva. Ad esempio, bello dovrebbe essere più simile e quindi occorrere in contesti di uso, più simili a quelli di non-­‐brutto, piuttosto che a quelli di brutto. Gli esperimenti condotti fino ad oggi non hanno dato risultati risolutivi, ma funzionali solamente in alcuni casi specifici. Sulla questa base, è in corso la ricerca di caratteristiche peculiari che permetterebbero di individuare formalmente insiemi di dati nei quali la misura proposta è molto efficace. Inoltre, dato che pur non risolutivi, i dati sembrano essere incoraggianti, mi sto muovendo per ottimizzare l'esperimento. In primo luogo, mi sto premurando di preparare un dataset migliore, inteso come una migliore lista di antonimi da utilizzare per testare il sistema. Le coppie di termini utilizzate fino ad ora non si sono rivelate, ad un'analisi più attenta, molto adatti al mio scopo, in quanto formate da termini rari, difficilmente rintracciabili in termini di occorrenze nei corpora (la scarsa frequenza dei dati è un grosso limite quando si utilizzano metodi distribuzionali), e molto poco 'prototipiche'. A tale proposito quindi, ho intenzione di procedere nel perfezionamento del metodo sviluppato utilizzando dati più puliti. In secondo luogo procederò con uno studio sperimentale dei risultati ottenuti, al fine di validarli. Qualora da tale studio emergessero caratteristiche della relazione di antonimia che rendono più efficiente la misura, o se dovesse emergere un particolare tipo di antonimia per cui questo approccio si dovesse rivelare funzionale, si procederà nell'ottimizzazione della misura. Un altro aspetto interessante che mi propongo di affrontare riguarda la possibilità di utilizzare misure di tipo distribuzionale non solo per classificare gli antonimi, ma anche per distinguere gli antonimi gradabili rispetto agli antonimi non gradabili. Inoltre, un altro aspetto da approfondire riguarda l'applicazione dei metodi distribuzionali per l'analisi dei prefissi negativi (un-­‐, im-­‐, dis-­‐ ) e degli antonimi che vengono generati grazie all'utilizzo di tali prefissi (come ad esempio possible-­‐impossible). Bibliografia •
Walter G. Charles, G. A. (1989). Contexts of antonymous adjectives. Applied psycholinguistics , 357-­‐375. •
Weeds, J. a. (2004). Characterising measures of lexical distributional similarity. Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics. •
Wierzbicka, A. (1984). "Apples" Are Not a "Kind of Fruit": The Semantics of Human Categorization. American Ethnologist , 313-­‐328. •
Willners, C. (2001). Antonyms in Context. •
Budanitsky, A. a. (2006). Evaluating wordnet-­‐based measures of lexical semantic relatedness. Computational Linguistics . •
Baroni, M. a. (2010). Distributional memory: A general framework for corpus-­‐based semantics. Computational Linguistics . •
Baroni, M. a. (2011). How we BLESSed distributional semantic evaluation. Proceedings of the GEMS 2011 Workshop on GEometrical Models of Natural Language Semantics. Association for Computational Linguistics. •
Benotto, G. (2013). Modelli distribuzionali delle relazioni semantiche: il caso dell’iperonimia . Animali, Umani, Macchine. Atti del convegno 2012 del CODISCO. CORISCO edizioni. •
Cann, R. (1993). Formal semantics: an introduction. Cambridge University Press. •
Charles, W. G. (2000). Contextual correlates of meaning. Applied Psycholinguistics . •
Clarke, D. (2009). Context-­‐theoretic semantics for natural language: an overview. Proceedings of the Workshop on Geometrical Models of Natural Language Semantics. Association for Computational Linguistics. •
Cruse, A. (1986). Lexical semantics. Cambridge University Press. •
David E. Rumelhart, P. H. (1972). A process model for long-­‐term memory. Academic Press. •
Dagan, I. a. (2006). The pascal recognising textual entailment challenge. In Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Tectual Entailment. Springer. •
Deese, J. (1966). Structure of associations in language and thought. Baltimore: Johns Hopkins Press . •
Fellbaum, C. (2001). WordNet: An electronic lexical database. MIT Press. •
Fellbaum, C. (1995). Co-­‐occurrence and antonymy. International journal of lexicography , 281-­‐303. •
Firth, J. (1957). Modes of Meaning. Papers in Linguistics . •
George Miller, a. C. (1998). Wordnet: An electronic lexical database. Cambridge: MIT Press Cambridge. •
Giampiccolo, D. a. (2009). The third pascal recognizing textual entailment challenge. Proceedings of the ACL-­‐PASCAL workshop on textual entailment and paraphrasing. Association for Computational Linguistics. •
Hindle, D. (1990). Noun classification from predicate-­‐argument structures. Proceedings of the 28th annual meeting on Association for Computational Linguistics. Association for Computational Linguistics. •
Jones, M. N. (2006). High-­‐dimensional semantic space accounts of priming. Journal of memory and language . •
Katz, J. J. (1972). Semantic theory. New York: Harper & Row. •
Kempson, R. M. (1977). Semantic Theory. Cambridge: Cambridge University Press. •
Kintsch, W. (2000). Metaphor comprehension: A computational theory. Psychonomic Bulletin & Review . •
Kintsch, W. (1974). The representation of meaning in memory. •
Kotlerman, L. a.-­‐G. (2010). Directional distributional similarity for lexical inference. Natural Language Engineering . •
Lyons, J. (1977). Semantics. Vol. 1-­‐2. •
Lehrer, A. L. (1982). Antonymy. Linguistics and philosophy , 483-­‐501. •
Lehrer, A. (1974). Semantic Fields and Lexical Structure . Amsterdam: North -­‐ Holland. •
Lenci, A. a. (2012). Identifying hypernyms in distributional semantic spaces. Proceedings of the First Joint Conference on Lexical and Computational Semantics-­‐Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. Association for Computational Linguistics. •
Lin, D. a. (2003). Identifying synonyms among distributionally similar words. IJCAI. •
Lin, D. (1998). An information-­‐theoretic definition of similarity. ICML. •
Murphy, G. L. (1997). Hierarchical structure in concepts and the basic level of categorization. MIT Press. •
Murphy, M. L. (2003). Semantic relations and the lexicon. Cambridge University Press. •
Martha W. Evens, B. L. (1980). Lexical-­‐semantic relations: a comparative survey. Linguistic Research. •
McDonald, S. a. (2001). Testing the distributional hypothesis: The influence of context on judgements of semantic similarity. •
Michael N Jones, W. K. (2006). High-­‐dimensional semantic space accounts of priming. Journal of memory and language . •
Miller, G. A. (1991). Contextual correlates of semantic similarity. Language and cognitive processes . •
Mohammad, S. a. (2008). Computing word-­‐pair antonymy. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. •
Mohammad, S. (2013). Publications and Data. •
Quillian, M. R. (1967). Word concepts: A theory and simulation of some basic semantic capabilities. Behavioral science . •
Pustejovsky, J. (1995). The Generative Lexicon. Cambridge: MIT Press. •
Palmer, F. (1981). Semantics. Cambridge: Cambridge University Press. •
Persson, U. M. (1986). Facets, phases and foci: studies in lexical relations in English. Universitetet i Umeå. •
Persson, G. (1990). Meanings, models and metaphors: a study in lexical semantics in English. Stockholm: Almqvist & Wiksell International . •
Sahlgren, M. (2006). The Word-­‐Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-­‐dimensional vector spaces. The Word-­‐Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-­‐dimensional vector spaces . Stockholm. •
Steven Jones, M. L. (2012). Antonyms in English: Construals, constructions and canonicity . Cambridge University Pres. •
Resnik, P. S. (1993). Selection and information: a class-­‐based approach to lexical relationships. IRCS Technical Reports Series. •
Thomas K Landauer, S. T. (1997). A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. . Psychological review .