Collocazioni e misure di associazione

Transcript

Collocazioni e misure di associazione
Linguistica Computazionale
Collocazioni e misure statistiche
di associazione
27 ottobre 2014
Le parole in contesto
You shall know a word by the company it keeps
J. R. Firth (1957)
XXXXX
andamento_della_X; listino_di_X; calo_della_X;
operatore_di_X; quotazione_in_X; capitale_di_X;
prezzo_di_X; collocamento_in_X; crac_della_X;
giocare_in_X; quotato_in_X
XXXXX
X_in_spalla; X_di_pelle; richiudere_la_X;
portare_la_X; dimenticare_la_X; mettere_nella_X;
tenere_nella_X; tenere_la_X; X_a_tracolla;
cerniera_della_ X
2
Associazioni tra parole
l 
L’analisi dei contesti linguistici (analisi distribuzionale) rivela le
preferenze combinatorie delle parole
l 
l 
l 
alcuni contesti emergono come più caratteristici (= più frequenti)
le parole variano considerevolmente per il grado di libertà con cui si
combinano
Alcune potenzialità combinatorie sono determinate da tratti morfosintattici e semantici generali delle parole stesse, in quanto membri di
una classe linguistica astratta
l 
Gianni ha visto
un
topolino
NOME
ARTICOLO CONCRETO
l 
grigio
AGGETTIVO
COLORE
le espressioni linguistiche che condividono i medesimi tratti possono
dunque essere sostituite alle parole della frase originaria per ottenere
nuove frasi grammaticali
l 
Gianni ha visto la mucca marrone, Gianni ha mangiato la fragola rossa,
ecc.
3
Associazioni tra parole
l 
Esistono nella lingua altri tipi di combinazioni lessicali
che si basano su legami non riconducibili a classi
linguistiche generali
l 
l 
l 
l 
A notte fonda c’era la luna piena
Gli alberghi sono cari in alta stagione
Gianni ha la vista lunga
Associazioni che riguardano due (o più) forme lessicali
specifiche
l 
se una delle parole viene sostituita con un sinonimo si ottengono
dei risultati bizzarri, anomali o comunque atipici
l 
l 
l 
Gianni ha la vista {ampia, estesa, ecc.}.
A notte {scura, profonda, ecc.} c’era la luna {tonda, chiara, ecc.}.
Gli alberghi sono cari in {elevata, avanzata, ecc.} stagione.
4
Collocazioni
l 
l 
Combinazioni di 2 o più parole caratterizzate da un elevato grado di
associazione reciproca, determinata dalla tendenza a ricorrere una accanto
all’altra, ovvero a “co-occorrere” (Sinclair 1991)
argomenti o modificatori tipici
l 
l 
argomenti o modificatori “idiosincratici”
l 
l 
fare attenzione, dare manforte, prendere posto, prendere un caffè, prendere atto, ecc.
nomi propri composti
l 
l 
tagliare la corda, tirare le cuoia, gatta morta, acqua cheta, voltare pagina, battere
cassa, ecc.
costruzioni a verbo supporto
l 
l 
accarezzare un’idea, mangiare la polvere, accampare una scusa, sedare una rivolta,
battere moneta, battere cassa, acerrimo nemico, ecc.
costruzioni idiomatiche
l 
l 
inseguire una macchina, mangiare un panino, bere una bibita, lavare le mani, tagliare
una fune, auto veloce, etc.
Stati Uniti d’America, ecc.
termini tecnici
l 
sistema operativo, corte d’assise, legge delega, regime alimentare, ecc.
5
Due sensi della nozione di
collocazione (Evert 2007)
l 
Collocazioni come concetto empirico (senso ampio)
l 
l 
combinazioni ricorrenti e predicibili di parole, osservate
nell’uso linguistico (= corpora)
Collocazioni come concetto teorico (senso stretto)
l 
espressioni polirematiche fortemente lessicalizzate,
idiomatiche e idiosincratiche (cf. multiword expressions)
l  guidare un’auto può essere una collocazione in senso
ampio (perché auto è un complemento tipico e molto
frequente di guidare), ma non è lo in senso stretto
l  tagliare la corda (nel senso di scappare) è una collocazione
anche in senso stretto
6
Collocazioni
tratti peculiari
l 
Elevata convenzionalità
l 
l 
le collocazioni sono tendenzialmente espressione di usi
convenzionali o stereotipati, tipici di particolari varietà linguistiche
Ridotta composizionalità semantica
l 
il significato di una collocazione è molto spesso non
immediatamente ricavabile dalla composizione del significato
delle parole che la formano
l 
l 
l 
sign.{topolino grigio} = sign.{topolino} + sign.{grigio}
sign. {gatta morta} ≠ sign.{gatta} + sign.{morta}
Forte rigidità strutturale
l 
le collocazioni sono spesso resistenti a modificazioni aggettivali o
avverbiali, o possono occorrere solo in particolari forme flesse e
contesti sintattici
l 
l 
Gianni ha tirato la corda.
?? La corda è stata tirata da Gianni.
7
Collocazioni
strutture linguistiche
composizionali
espressioni idiomatiche
collocazioni
“mangiare un panino”
verbi supporto
argomenti tipici
“mangiare la foglia”
terminologia
8
Misure di associazione
lessicale
Le collocazioni sono parole con un alto grado
di associazione reciproca
l  Misure di associazione lessicale
l 
l 
l 
quantificano la forza del legame tra due o più
parole sul piano sintagmatico
la nozione intuitiva di associazione lessicale viene
trasformata in un indice quantitativo e misurabile
Assunzione generale
se due o più parole formano una collocazione in una certa varietà
linguistica, è molto probabile che nei testi rappresentativi di tale
varietà esse ricorrano insieme in maniera statisticamente significativa9
A caccia di collocazioni
analisi linguistica del corpus
selezione delle coppie di parole
costruzione di una tabella di
contingenza per ogni coppia
applicazione di una
misura di associazione
ordinamento della coppie in
base alla forza di associazione
10
A caccia di collocazioni
analisi linguistica del corpus
selezione delle coppie di parole
costruzione di una tabella di
contingenza per ogni coppia
applicazione di una
misura di associazione
ordinamento della coppie in
base alla forza di associazione
11
Analisi linguistica del corpus
l 
Il corpus deve essere almeno tokenizzato
Dopo essere sceso, l’uomo si allontanò.
Dopo essere sceso , l’ uomo si allontanò .
l 
Livelli di annotazione linguistica (tipicamente
realizzati con strumenti automatici):
l 
l 
l 
lemmatizzazione
annotazione morfosintattica (PoS tagging)
analisi sintattica (parsing)
12
A caccia di collocazioni
analisi linguistica del corpus
selezione delle coppie di parole
costruzione di una tabella di
contingenza per ogni coppia
applicazione di una
misura di associazione
ordinamento della coppie in
base alla forza di associazione
13
Selezione delle coppie di parole
(bigrammi)
Il presidente mangia mele . la grande mela è in fermento. le mele
sono mature . Carlo mangia il panino . Maria taglia la torta. Anna
mangia la mela .
Bigrammi lessicali (lemmatizzati):
<presidente, mangiare> <mangiare, mela> <grande,
mela> <mela, fermento> <mela, matura> <mangiare,
panino> <tagliare, torta> <mangiare, mela>
l 
Il tipo dei bigrammi che vengono selezionati dipende dal livello di
annotazione linguistica del testo
l 
es. lemmatizzazione, identificazione dei confini frasali, eventuale
eliminazione di “stop words” (es. preposizioni, articoli, ecc.)
14
A caccia di collocazioni
analisi linguistica del corpus
selezione delle coppie di parole
costruzione di una tabella di
contingenza per ogni coppia
applicazione di una
misura di associazione
ordinamento della coppie in
base alla forza di associazione
15
Dai bigrammi alle tabelle di
contingenza
Numero totale bigrammi = 14
<mangiare, mela> <grande, mela> <mangiare, torta> <mangiare, panino>
<mangiare, mela> <tagliare, torta> <prima, mela> <sbucciare, mela>, <mangiare,
mela>, <prendere, panino> <mangiare, mela> <vendere, mela> < piccola mela>
<mangiare, pasta>
tabella di contingenza per <mangiare, mela>
y = mela
y ≠mela
x = mangiare
4
3
RIGAx=mangiare = 4 + 3 = 7
x ≠mangiare
5
2
RIGAx≠mangiare = 5 + 2 = 7
COLONNAy=mela = 4 + 5 = 9
COLONNAy≠mela = 3 + 2 = 5
16
Dai bigrammi alle tabelle di
contingenza
Numero totale bigrammi = 14
<mangiare, mela> <grande, mela> <mangiare, torta> <mangiare, panino>
<mangiare, mela> <tagliare, torta> <prima, mela> <sbucciare, mela>, <mangiare,
mela>, <prendere, panino> <mangiare, mela> <vendere, mela> < piccola mela>
<mangiare, pasta>
tabella di contingenza per <mangiare, mela>
y = mela
y ≠mela
x = mangiare
4
3
RIGAx=mangiare = 4 + 3 = 7
x ≠mangiare
5
2
RIGAx≠mangiare = 5 + 2 = 7
COLONNAy=mela = 4 + 5 = 9
COLONNAy≠mela = 3 + 2 = 5
17
Dai bigrammi alle tabelle di
contingenza
l 
l 
l 
Tabella di contingenza per un bigramma <u,v>
C1 = O11 + O21
R1 = O11 + O12
C2 = O12 + O22
R2 = O21 + O22
O11 - frequenza osservata del bigramma <u,v> (joint frequency)
R1, R2, C1, C2 - frequenze marginali
l 
l 
l 
R1 = frequenza assoluta di u nel corpus (f(u))
C1 = frequenza assoluta di v nel corpus (f(v))
N = O11 + O12 + O21 + O22 - numero complessivo dei bigrammi estratti
18