Strumenti elementari: parte seconda

Transcript

Strumenti elementari: parte seconda
Strumenti elementari:
parte seconda
Concordanze e il calcolo delle
collocazioni
1
Informatica e lingue naturali - Isabella Chiari
(2004)
Le concordanze
|
|
|
2
Le concordanze permettono di valutare e
visualizzare i cotesti delle parole
Le concordanze, oltre alle informazioni di
frequenza, forniscono il cotesto precedente
e successivo di una parola data
Le concordanza sono usate sia in ambito
linguistico sia letterario per la valutazione
degli usi in contesto.
Informatica e lingue naturali - Isabella Chiari
(2004)
1
Concordanza di anima nella
Divina Commedia
[In.1.122]
[In.2.45]
[In.2.58]
[In.3.88]
[In.3.127]
[In.5.7]
[In.6.55]
[In.10.15]
[In.12.74]
[In.12.90]
[Pu.4.3]
[Pu.18.44]
[Pu.19.73]
[Pu.19.113]
[Pu.20.34]
3
anima fia a ciò più di me degna:
l'anima tua è da viltade offesa;
O anima cortese mantoana,
E tu che se' costì, anima viva,
Quinci non passa mai anima buona;
Dico che quando l'anima mal nata
E io anima trista non son sola,
che l'anima col corpo morta fanno.
saettando qual anima si svelle
non è ladron, né io anima fuia.
l'anima bene ad essa si raccoglie,
e l'anima non va con altro piede,
Adhaesit pavimento anima mea'
da Dio anima fui, del tutto avara;
O anima che tanto ben favelle,
Informatica e lingue naturali - Isabella Chiari
(2004)
Principali funzioni delle
concordanze
osservare i diversi usi di una parola;
| esaminare i diversi contesti (semantici
o sintattici) in cui occorre una parola;
| analizzare la regolarità con la quale
una parola è accompagnata ad altre
(prima e dopo).
|
4
Informatica e lingue naturali - Isabella Chiari
(2004)
2
Struttura base di presentazione
delle concordanze
KWIC (keyword in context)
| La parola chiave (keyword) è la
parola di cui si cerca l’uso,
solitamente si trova nella colonna
centrale.
| Il cotesto (precedente e successivo) è
stabilito dall’utente:
|
n°. fisso di parole (3 – 3, ecc.)
z frase o verso
z
5
Informatica e lingue naturali - Isabella Chiari
(2004)
Concordanza del LIP con il
software Concordance
6
Informatica e lingue naturali - Isabella Chiari
(2004)
3
Tipi di concordanze
Concordanze complete
(concordanze per tutte le parole del
corpus), voluminose e lente, più
complesse
| Concordanze specifiche
(concordanze per specifiche
keyword), veloci e facili
|
Informatica e lingue naturali - Isabella Chiari
(2004)
7
Concordanze specifiche
z
z
z
z
8
per forma specifica (parola testuale, forma
flessa): psicologico, si ottengono tutti i token di
questo type
per lemma: psicologico (su corpus
lemmatizzato) si ottengono tutte le occorrenze di
tutte le forme flesse
con l’uso di caratteri jolly (wildcards):
psicologic*, si ottengono tutte le forme flesse e
tutti i derivati
con le espressioni regolari: psicologic[aoih]?, si
ottengono tutte le forme che hanno uno dei
caratteri tra parentesi [x] dopo la sequenza, più 0
o un carattere (esclude i derivati)
Informatica e lingue naturali - Isabella Chiari
(2004)
4
Le espressioni regolari
|
|
|
|
|
9
le espressioni regolari permettono di condurre ricerche
complesse mediante la formalizzazione delle
condizioni che le stringhe che cerchiamo devono
soddisfare
[abc] individua una classe di caratteri singoli che
appaiono in modo disgiunto ([stv]ana individua sana;
tana; vana)
[?] il carattere che precede <?> può occorrere 0 o 1
volta (venu?te individua vento; venute)
[*] il carattere che precede <*> può occorrere da 0 a n
volte (12*3 individua 13, 123, 1223, 12223…)
[.] il simbolo <.> indica qualsiasi carattere (fa.o
individua fato; faro…)
Informatica e lingue naturali - Isabella Chiari
(2004)
Le collocazioni
|
|
|
|
10
Le collocazioni sono espressioni composte da più di
una parola grafica, che tuttavia si comportano
semanticamente e spesso morfo-sintatticamente
come un solo lessema
Esempi: forza pubblica, occhio di lince, localizzazione
cerebrale, mirino a pentaprisma, prescrivere una ricetta,
richiedere un ricovero ospedaliero
Le collocazioni sono importanti per la costruzione
dizionari mono- e bilingui, nella compilazione di glossari
delle terminologie tecnico-specialistiche, per la
elaborazione delle applicazioni di traduzione
automatica e nella didattica delle lingue
Anche nella elaborazione dei dati di un corpus le
collocazioni sono importanti dato che si comportano
come una parola sola
Informatica e lingue naturali - Isabella Chiari
(2004)
5
La co-occorrenza delle
parole
|
|
Vi sono diversi gradi di intensità nel legame tra due o
più parole che co-occorrono
Per individuare le possibili collocazioni di un corpus si
usano soprattutto questi metodi:
z
z
|
|
mutual information confronta la co-occorrenza effettiva
di una coppia di parole con il valore di co-occorrenza che
le due parole avrebbero casualmente
Z-score e T-score utilizzano il rapporto tra le cooccorrenze e la deviazione standard
I legami tra le parole possono essere anche di natura
puramente sintattica, è necessario dunque scindere
questi fattori dalle cristallizzazioni vere e proprie
Un ulteriore problema per la rilevazione automatica
delle collocazioni è la presenza di omografi
11
Informatica e lingue naturali - Isabella Chiari
(2004)
Valutazione delle
collocazioni di fatto nel LIP
12
Informatica e lingue naturali - Isabella Chiari
(2004)
6
Collins Wordbanks
Se proviamo a cercare le collocazioni della
parola inglese match dalla Collins
Wordbanks
(http://www.collins.co.uk/Corpus/CorpusSea
rch.aspx), che usa un corpus di 56 milioni di
parole di inglese britannico e americano
troviamo in cima alla lista report match,
football match, match cup, test match,
league match.
13
Informatica e lingue naturali - Isabella Chiari
(2004)
Perché si parla di collocazioni
in linguistica computazionale?
|
|
|
|
|
|
14
In lessicografia computazionale serve, ovviamente, a
estrarre espressioni da lemmatizzare come voce
autonoma.
Nella traduzione automatica serve per individuare
traducenti cristallizzati e arricchire le banche dati
terminologiche.
È opportuna nel Natural Language Processing per
operare corrette analisi sintattiche e anche nella
generazione linguistica.
L’estrazione di collocazioni è utile inoltre
nell’Information retrieval
nella disambiguazione dei sensi di una parola
nel riconoscimento e nella sintesi del parlato.
Informatica e lingue naturali - Isabella Chiari
(2004)
7