Collocazioni e misure di associazione
Transcript
Collocazioni e misure di associazione
Linguistica Computazionale Collocazioni e misure statistiche di associazione 27 ottobre 2014 Le parole in contesto You shall know a word by the company it keeps J. R. Firth (1957) XXXXX andamento_della_X; listino_di_X; calo_della_X; operatore_di_X; quotazione_in_X; capitale_di_X; prezzo_di_X; collocamento_in_X; crac_della_X; giocare_in_X; quotato_in_X XXXXX X_in_spalla; X_di_pelle; richiudere_la_X; portare_la_X; dimenticare_la_X; mettere_nella_X; tenere_nella_X; tenere_la_X; X_a_tracolla; cerniera_della_ X 2 Associazioni tra parole l L’analisi dei contesti linguistici (analisi distribuzionale) rivela le preferenze combinatorie delle parole l l l alcuni contesti emergono come più caratteristici (= più frequenti) le parole variano considerevolmente per il grado di libertà con cui si combinano Alcune potenzialità combinatorie sono determinate da tratti morfosintattici e semantici generali delle parole stesse, in quanto membri di una classe linguistica astratta l Gianni ha visto un topolino NOME ARTICOLO CONCRETO l grigio AGGETTIVO COLORE le espressioni linguistiche che condividono i medesimi tratti possono dunque essere sostituite alle parole della frase originaria per ottenere nuove frasi grammaticali l Gianni ha visto la mucca marrone, Gianni ha mangiato la fragola rossa, ecc. 3 Associazioni tra parole l Esistono nella lingua altri tipi di combinazioni lessicali che si basano su legami non riconducibili a classi linguistiche generali l l l l A notte fonda c’era la luna piena Gli alberghi sono cari in alta stagione Gianni ha la vista lunga Associazioni che riguardano due (o più) forme lessicali specifiche l se una delle parole viene sostituita con un sinonimo si ottengono dei risultati bizzarri, anomali o comunque atipici l l l Gianni ha la vista {ampia, estesa, ecc.}. A notte {scura, profonda, ecc.} c’era la luna {tonda, chiara, ecc.}. Gli alberghi sono cari in {elevata, avanzata, ecc.} stagione. 4 Collocazioni l l Combinazioni di 2 o più parole caratterizzate da un elevato grado di associazione reciproca, determinata dalla tendenza a ricorrere una accanto all’altra, ovvero a “co-occorrere” (Sinclair 1991) argomenti o modificatori tipici l l argomenti o modificatori “idiosincratici” l l fare attenzione, dare manforte, prendere posto, prendere un caffè, prendere atto, ecc. nomi propri composti l l tagliare la corda, tirare le cuoia, gatta morta, acqua cheta, voltare pagina, battere cassa, ecc. costruzioni a verbo supporto l l accarezzare un’idea, mangiare la polvere, accampare una scusa, sedare una rivolta, battere moneta, battere cassa, acerrimo nemico, ecc. costruzioni idiomatiche l l inseguire una macchina, mangiare un panino, bere una bibita, lavare le mani, tagliare una fune, auto veloce, etc. Stati Uniti d’America, ecc. termini tecnici l sistema operativo, corte d’assise, legge delega, regime alimentare, ecc. 5 Due sensi della nozione di collocazione (Evert 2007) l Collocazioni come concetto empirico (senso ampio) l l combinazioni ricorrenti e predicibili di parole, osservate nell’uso linguistico (= corpora) Collocazioni come concetto teorico (senso stretto) l espressioni polirematiche fortemente lessicalizzate, idiomatiche e idiosincratiche (cf. multiword expressions) l guidare un’auto può essere una collocazione in senso ampio (perché auto è un complemento tipico e molto frequente di guidare), ma non è lo in senso stretto l tagliare la corda (nel senso di scappare) è una collocazione anche in senso stretto 6 Collocazioni tratti peculiari l Elevata convenzionalità l l le collocazioni sono tendenzialmente espressione di usi convenzionali o stereotipati, tipici di particolari varietà linguistiche Ridotta composizionalità semantica l il significato di una collocazione è molto spesso non immediatamente ricavabile dalla composizione del significato delle parole che la formano l l l sign.{topolino grigio} = sign.{topolino} + sign.{grigio} sign. {gatta morta} ≠ sign.{gatta} + sign.{morta} Forte rigidità strutturale l le collocazioni sono spesso resistenti a modificazioni aggettivali o avverbiali, o possono occorrere solo in particolari forme flesse e contesti sintattici l l Gianni ha tirato la corda. ?? La corda è stata tirata da Gianni. 7 Collocazioni strutture linguistiche composizionali espressioni idiomatiche collocazioni “mangiare un panino” verbi supporto argomenti tipici “mangiare la foglia” terminologia 8 Misure di associazione lessicale Le collocazioni sono parole con un alto grado di associazione reciproca l Misure di associazione lessicale l l l quantificano la forza del legame tra due o più parole sul piano sintagmatico la nozione intuitiva di associazione lessicale viene trasformata in un indice quantitativo e misurabile Assunzione generale se due o più parole formano una collocazione in una certa varietà linguistica, è molto probabile che nei testi rappresentativi di tale varietà esse ricorrano insieme in maniera statisticamente significativa9 A caccia di collocazioni analisi linguistica del corpus selezione delle coppie di parole costruzione di una tabella di contingenza per ogni coppia applicazione di una misura di associazione ordinamento della coppie in base alla forza di associazione 10 A caccia di collocazioni analisi linguistica del corpus selezione delle coppie di parole costruzione di una tabella di contingenza per ogni coppia applicazione di una misura di associazione ordinamento della coppie in base alla forza di associazione 11 Analisi linguistica del corpus l Il corpus deve essere almeno tokenizzato Dopo essere sceso, l’uomo si allontanò. Dopo essere sceso , l’ uomo si allontanò . l Livelli di annotazione linguistica (tipicamente realizzati con strumenti automatici): l l l lemmatizzazione annotazione morfosintattica (PoS tagging) analisi sintattica (parsing) 12 A caccia di collocazioni analisi linguistica del corpus selezione delle coppie di parole costruzione di una tabella di contingenza per ogni coppia applicazione di una misura di associazione ordinamento della coppie in base alla forza di associazione 13 Selezione delle coppie di parole (bigrammi) Il presidente mangia mele . la grande mela è in fermento. le mele sono mature . Carlo mangia il panino . Maria taglia la torta. Anna mangia la mela . Bigrammi lessicali (lemmatizzati): <presidente, mangiare> <mangiare, mela> <grande, mela> <mela, fermento> <mela, matura> <mangiare, panino> <tagliare, torta> <mangiare, mela> l Il tipo dei bigrammi che vengono selezionati dipende dal livello di annotazione linguistica del testo l es. lemmatizzazione, identificazione dei confini frasali, eventuale eliminazione di “stop words” (es. preposizioni, articoli, ecc.) 14 A caccia di collocazioni analisi linguistica del corpus selezione delle coppie di parole costruzione di una tabella di contingenza per ogni coppia applicazione di una misura di associazione ordinamento della coppie in base alla forza di associazione 15 Dai bigrammi alle tabelle di contingenza Numero totale bigrammi = 14 <mangiare, mela> <grande, mela> <mangiare, torta> <mangiare, panino> <mangiare, mela> <tagliare, torta> <prima, mela> <sbucciare, mela>, <mangiare, mela>, <prendere, panino> <mangiare, mela> <vendere, mela> < piccola mela> <mangiare, pasta> tabella di contingenza per <mangiare, mela> y = mela y ≠mela x = mangiare 4 3 RIGAx=mangiare = 4 + 3 = 7 x ≠mangiare 5 2 RIGAx≠mangiare = 5 + 2 = 7 COLONNAy=mela = 4 + 5 = 9 COLONNAy≠mela = 3 + 2 = 5 16 Dai bigrammi alle tabelle di contingenza Numero totale bigrammi = 14 <mangiare, mela> <grande, mela> <mangiare, torta> <mangiare, panino> <mangiare, mela> <tagliare, torta> <prima, mela> <sbucciare, mela>, <mangiare, mela>, <prendere, panino> <mangiare, mela> <vendere, mela> < piccola mela> <mangiare, pasta> tabella di contingenza per <mangiare, mela> y = mela y ≠mela x = mangiare 4 3 RIGAx=mangiare = 4 + 3 = 7 x ≠mangiare 5 2 RIGAx≠mangiare = 5 + 2 = 7 COLONNAy=mela = 4 + 5 = 9 COLONNAy≠mela = 3 + 2 = 5 17 Dai bigrammi alle tabelle di contingenza l l l Tabella di contingenza per un bigramma <u,v> C1 = O11 + O21 R1 = O11 + O12 C2 = O12 + O22 R2 = O21 + O22 O11 - frequenza osservata del bigramma <u,v> (joint frequency) R1, R2, C1, C2 - frequenze marginali l l l R1 = frequenza assoluta di u nel corpus (f(u)) C1 = frequenza assoluta di v nel corpus (f(v)) N = O11 + O12 + O21 + O22 - numero complessivo dei bigrammi estratti 18