Strumenti elementari: parte seconda
Transcript
Strumenti elementari: parte seconda
Strumenti elementari: parte seconda Concordanze e il calcolo delle collocazioni 1 Informatica e lingue naturali - Isabella Chiari (2004) Le concordanze | | | 2 Le concordanze permettono di valutare e visualizzare i cotesti delle parole Le concordanze, oltre alle informazioni di frequenza, forniscono il cotesto precedente e successivo di una parola data Le concordanza sono usate sia in ambito linguistico sia letterario per la valutazione degli usi in contesto. Informatica e lingue naturali - Isabella Chiari (2004) 1 Concordanza di anima nella Divina Commedia [In.1.122] [In.2.45] [In.2.58] [In.3.88] [In.3.127] [In.5.7] [In.6.55] [In.10.15] [In.12.74] [In.12.90] [Pu.4.3] [Pu.18.44] [Pu.19.73] [Pu.19.113] [Pu.20.34] 3 anima fia a ciò più di me degna: l'anima tua è da viltade offesa; O anima cortese mantoana, E tu che se' costì, anima viva, Quinci non passa mai anima buona; Dico che quando l'anima mal nata E io anima trista non son sola, che l'anima col corpo morta fanno. saettando qual anima si svelle non è ladron, né io anima fuia. l'anima bene ad essa si raccoglie, e l'anima non va con altro piede, Adhaesit pavimento anima mea' da Dio anima fui, del tutto avara; O anima che tanto ben favelle, Informatica e lingue naturali - Isabella Chiari (2004) Principali funzioni delle concordanze osservare i diversi usi di una parola; | esaminare i diversi contesti (semantici o sintattici) in cui occorre una parola; | analizzare la regolarità con la quale una parola è accompagnata ad altre (prima e dopo). | 4 Informatica e lingue naturali - Isabella Chiari (2004) 2 Struttura base di presentazione delle concordanze KWIC (keyword in context) | La parola chiave (keyword) è la parola di cui si cerca l’uso, solitamente si trova nella colonna centrale. | Il cotesto (precedente e successivo) è stabilito dall’utente: | n°. fisso di parole (3 – 3, ecc.) z frase o verso z 5 Informatica e lingue naturali - Isabella Chiari (2004) Concordanza del LIP con il software Concordance 6 Informatica e lingue naturali - Isabella Chiari (2004) 3 Tipi di concordanze Concordanze complete (concordanze per tutte le parole del corpus), voluminose e lente, più complesse | Concordanze specifiche (concordanze per specifiche keyword), veloci e facili | Informatica e lingue naturali - Isabella Chiari (2004) 7 Concordanze specifiche z z z z 8 per forma specifica (parola testuale, forma flessa): psicologico, si ottengono tutti i token di questo type per lemma: psicologico (su corpus lemmatizzato) si ottengono tutte le occorrenze di tutte le forme flesse con l’uso di caratteri jolly (wildcards): psicologic*, si ottengono tutte le forme flesse e tutti i derivati con le espressioni regolari: psicologic[aoih]?, si ottengono tutte le forme che hanno uno dei caratteri tra parentesi [x] dopo la sequenza, più 0 o un carattere (esclude i derivati) Informatica e lingue naturali - Isabella Chiari (2004) 4 Le espressioni regolari | | | | | 9 le espressioni regolari permettono di condurre ricerche complesse mediante la formalizzazione delle condizioni che le stringhe che cerchiamo devono soddisfare [abc] individua una classe di caratteri singoli che appaiono in modo disgiunto ([stv]ana individua sana; tana; vana) [?] il carattere che precede <?> può occorrere 0 o 1 volta (venu?te individua vento; venute) [*] il carattere che precede <*> può occorrere da 0 a n volte (12*3 individua 13, 123, 1223, 12223…) [.] il simbolo <.> indica qualsiasi carattere (fa.o individua fato; faro…) Informatica e lingue naturali - Isabella Chiari (2004) Le collocazioni | | | | 10 Le collocazioni sono espressioni composte da più di una parola grafica, che tuttavia si comportano semanticamente e spesso morfo-sintatticamente come un solo lessema Esempi: forza pubblica, occhio di lince, localizzazione cerebrale, mirino a pentaprisma, prescrivere una ricetta, richiedere un ricovero ospedaliero Le collocazioni sono importanti per la costruzione dizionari mono- e bilingui, nella compilazione di glossari delle terminologie tecnico-specialistiche, per la elaborazione delle applicazioni di traduzione automatica e nella didattica delle lingue Anche nella elaborazione dei dati di un corpus le collocazioni sono importanti dato che si comportano come una parola sola Informatica e lingue naturali - Isabella Chiari (2004) 5 La co-occorrenza delle parole | | Vi sono diversi gradi di intensità nel legame tra due o più parole che co-occorrono Per individuare le possibili collocazioni di un corpus si usano soprattutto questi metodi: z z | | mutual information confronta la co-occorrenza effettiva di una coppia di parole con il valore di co-occorrenza che le due parole avrebbero casualmente Z-score e T-score utilizzano il rapporto tra le cooccorrenze e la deviazione standard I legami tra le parole possono essere anche di natura puramente sintattica, è necessario dunque scindere questi fattori dalle cristallizzazioni vere e proprie Un ulteriore problema per la rilevazione automatica delle collocazioni è la presenza di omografi 11 Informatica e lingue naturali - Isabella Chiari (2004) Valutazione delle collocazioni di fatto nel LIP 12 Informatica e lingue naturali - Isabella Chiari (2004) 6 Collins Wordbanks Se proviamo a cercare le collocazioni della parola inglese match dalla Collins Wordbanks (http://www.collins.co.uk/Corpus/CorpusSea rch.aspx), che usa un corpus di 56 milioni di parole di inglese britannico e americano troviamo in cima alla lista report match, football match, match cup, test match, league match. 13 Informatica e lingue naturali - Isabella Chiari (2004) Perché si parla di collocazioni in linguistica computazionale? | | | | | | 14 In lessicografia computazionale serve, ovviamente, a estrarre espressioni da lemmatizzare come voce autonoma. Nella traduzione automatica serve per individuare traducenti cristallizzati e arricchire le banche dati terminologiche. È opportuna nel Natural Language Processing per operare corrette analisi sintattiche e anche nella generazione linguistica. L’estrazione di collocazioni è utile inoltre nell’Information retrieval nella disambiguazione dei sensi di una parola nel riconoscimento e nella sintesi del parlato. Informatica e lingue naturali - Isabella Chiari (2004) 7