costruire corpora

Transcript

costruire corpora
01/06/2007
Ruhr-Universität Bochum, Germania, 24 maggio 2007
Isabella Chiari
TRATTAMENTO DI TESTI ITALIANI:
STRUMENTI, RISORSE E PROBLEMI
1
Ruhr-Universität Bochum, Germania, 24
maggio 2007
CORPORA E APPLICAZIONI
Perché la linguistica dei corpora è oggi tanto
rilevante?
Come si integra la linguistica dei corpora con
la linguistica computazionale?
Quali sono i principali problemi che chi
costruisce corpora deve risolvere?
Esistono strumenti che aiutano chi fa ricerca
linguistica a costruire corpora per la
pubblicazione?
2
1
01/06/2007
Chiari, I. (2007), Introduzione alla linguistica
computazionale, Laterza, Roma-Bari.
I CORPORA IN LINGUISTICA COMPUTAZIONALE
Lessicografia elettronica corpus-based
•Dizionari informatizzati
•Dizionari macchina corpus based
Training corpora per il NLP
•Taggers e parsers con training corpora
Traduzione automatica
•Corpus-based
•Example-based machine translation
Tecnologie del parlato
•Addestramento allo speech recognition
•Sintesi corpus-based
Machine learning – Information technology
•Individuazione automatica di patterns estratti dai dati
Chiari, I. (2007), Introduzione alla linguistica
computazionale, Laterza, Roma-Bari.
IL CIRCOLO VIRTUOSO
Corpora
linguistici
Applicazioni per il
trattamento dei
corpora
Elaborazione e
trattamento del
materiale testuale
Strumenti di NLP
Tecnologie del parlato
TA
Dizionari-macchina
Corpora
p
etichettati
•Strumenti NLP
•Parsing e tagging
Training corpora
per strumenti di NLP –
MACHINE LEARNING
2
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
CORPORA PUBBLICI E CORPORA INDIVIDUALI
5
Ruhr-Universität Bochum, Germania, 24
maggio 2007
3 PROBLEMI
Normalizzazione
• Determinazione degli insiemi ALFABETO E SEPARATORI
• Ambiguità nella punteggiatura (punto, trattino, apostrofo,
accenti), ecc.
• Nomi propri, di luoghi, sigle non riconosciuti, ecc.
• Unità di misura, numeri (euro, 29), ecc.
Disambiguazione delle omografie
• Omografi assoluti e testuali
Individuazione delle polirematiche
6
3
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
NORMALIZZAZIONE: CHE COS’È?
Pre-trattamento ortografico
•La riduzione di ambiguità dovute alle convenzioni ortografiche
•individuazione un insieme di simboli come alfabeto (a, b, c, 5, 8) e
un insieme di separatori (.,;:/?!)
•ogni simbolo (il punto, la virgola, la barra, ecc.) sia univoco, ossia
non venga utilizzato in modi diversi nello stesso corpus
Pre-trattamento linguistico
•Riconoscimento di strutture cristallizzate
•come sigle, titoli, toponimi, nomi propri (prima di ridurre
eventualmente le maiuscole)
•Riconoscimento di locuzioni grammaticali e polirematiche note (da
lista)
7
Ruhr-Universität Bochum, Germania, 24
maggio 2007
UN ESEMPIO: TALTAC 2
Trattamento automatico lessicale e testuale per
l’analisi del contenuto di un corpus
Sergio Bolasco
• Università La Sapienza di Roma (Economia)
Analisi lessicali e testuali
• Integrazione con risorse di riferimento (vocabolari, lessici di
frequenza)
• con altri programmi di trattamento statistico (Lexico, Spad)
• e linguistico
8
4
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
NORMALIZZAZIONE: DEFINIZIONE ALFABETO
9
Ruhr-Universität Bochum, Germania, 24 maggio
2007
NORMALIZZAZIONE
PUNTEGGIATURA
•Apostrofi in accenti
•Maiuscolo/minuscolo
M i
l / i
l
POLIREMATICHE E
COLLOCAZIONI (base)
•Locuzioni gramm.
•Polirematiche nominali
NOMI
•nomi propri
•toponimi
•celebrità
•titoli
•Sigle
LISTE PERSONALIZZATE
10
5
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
COSÌ OTTENGO AD ESEMPIO…LOCUZIONI COME..
11
Ruhr-Universität Bochum, Germania, 24
maggio 2007
NOMI PROPRI, SIGLE, FORMULE
12
6
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
NORMALIZZAZIONE: TESTO INTERNET 2004
PRON 60
A
A 746
AVV
CONG
PREP 2.589
ESC
FORM
AVV 4.323
NM 1.150
N
NM
PREP
PRON
N 1.301
FORM 163
ESC 3
CONG
552
13
Ruhr-Universität Bochum, Germania, 24
maggio 2007
PRIMA E DOPO LA NORMALIZZAZIONE
Dati corpus
TOKEN
(occorrenze)
TYPES
OMOGRAFI
Prima della
normalizzazione
Normalizzato
Differenza
254.365
240.173
14.192
20.130
18.730
1.400
123.097
108.760
(45,3%)
14.337
(48,4%)
14
7
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
GLI OMOGRAFI - TIPOLOGIE
Omografi (omonimi, omofoni)
•parole caratterizzate da un significante comune, ma che rimandano a
significati radicalmente diversi,
diversi spesso senza alcuna parentela
etimologica
Omografi assoluti
•Calcio
•“pedata”
•“Ca”
•“impugnatura
p g
di un fucile o p
pistola”
Omografi testuali
•Faccia
•“viso”
•“voce del verbo fare”
15
Ruhr-Universität Bochum, Germania, 24
maggio 2007
STRUMENTI
Omografi assoluti
• Word sense disambiguation
• Strumenti probabilistici/statistici
• Opzionale (attualmente ancora indietro)
Omografi testuali (relativi)
• POS
OS tagging e Lemmatizzatori
• Basati su regole
• Probabilistici
• Operazione di base per ogni corpus
16
8
01/06/2007
Ruhr-Universität Bochum, Germania, 24 maggio 2007
SE NON RISOLVO IL PROBLEMA OTTENGO…
17
Ruhr-Universität Bochum, Germania, 24
maggio 2007
E SE GUARDO LE CONCORDANZE TROVO:
18
9
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
QUANTI SONO IN MEDIA GLI OMOGRAFI IN UN
TESTO ITALIANO?
Tullio De Mauro in Capire le parole (1999) riporta:
• Il tasso di omonimia relativa o testuale è
• Scritti tecnici (economia e finanza): 38,6%
• LIP 46%
Il tasso di omografia testuale dipende dalla tipologia
testuale
• Testi con parole più brevi (come le trascrizioni del parlato, ecc.)
tendono ad avere più omografi dei linguaggi tecnico-specialistici
• È una conseguenza della legge di Zipf sul numero dei significati e
della saturazione (Guiraud) maggiore nelle parole brevi.
19
Ruhr-Universität Bochum, Germania, 24
maggio 2007
ALCUNI ESEMPI
TESTI
Codice penale
Internet 2004
informatica
Caos Calmo
(S. Veronesi)
narrativa
LIP Corpus
Roma
parlato
l.l giuridico
Token
68.728
254.365
123.781
135.716
Types
5.160
20.130
16.819
11.922
Omografi testuali
3.486
123.097
60.018
65.630
% omografi
47%
49%
49%
49%
Parole
sconosciute
4%
4%
11%
6%
20
10
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
POS TAGGING E LEMMATIZZAZIONE
Il part-of-speech (POS) tagging
• etichettatura automatica per categorie grammaticali
• Il tagger riceve in input una frase e restituisce in output le forme grafiche delle
parole accompagnate da etichette che segnalano la categoria grammaticale di
appartenenza
ESEMPIO: la forma grafica <LA>
• potrebbe corrispondere a tre etichettature grammaticali possibili:
• determinante (articolo)
• nome (nota musicale)
• pronome (pronome personale)
Tipologie
• Tagger basati su regole (dizionario-macchina e grammatica)
• Tagger probabilistici (training, parametri, applicazione statistica)
21
Ruhr-Universität Bochum, Germania, 24
maggio 2007
UN ESEMPIO: TREETAGGER
Autori
•Helmut Schmid, Institute for Computational Linguistics of the University of
Stuttgart
Gratuito e condiviso
•Scaricabile (Mac, Windows, Linux)
•Online (max 2 mega): http://cental.fltr.ucl.ac.be/~pat/tagger/
Tagger probabilistico
•Usa
U decision
d i i trees
t
•Che determina automaticamente l’ampiezza del contesto per calcolare le
probabilità di transizione (più adatto delle catene markoviane per eventi rari)
•96,36% di precisione sul Penn-Treebank (inglese)
22
11
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
OUTPUT DI TREETAGGER
23
Ruhr-Universität Bochum, Germania, 24
maggio 2007
PROBLEMI CON TREETAGGER
I parametri
• non vanno bene per tutte le tipologie testuali,
• ad esempio il parlato
• Spesso costruire un training corpus ah hoc non è possibile
(1.000.000 di tokens, manualmente corretti)
• Il tagger va comunque sottoposto a nuovo training se si vuole
ampliare il suo lessico
Errori sistematici
• Participi e aggettivi
• Mancato riconoscimento di nomi
• Mancata indicazione di polirematiche
24
12
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
TRAINING E CORREZIONE MANUALE
Training corpus
• Se si dispone già di un ampio corpus annotato
• Se la tipologia è molto uniforme, e il vocabolario è ridotto
• es. meteo, oroscopo, ricette, istruzioni per l’uso, ecc.
Correzione manuale
• Se il corpus è piccolo
pp
• oppure
• Se è assolutamente necessaria una corretta annotazione
• per esempio se si vuole pubblicare il corpus di uno o più testi di
un autore
• Se si può contare su un numero ampio di collaboratori
25
Ruhr-Universität Bochum, Germania, 24
maggio 2007
UN AIUTO NELLA CORREZIONE: POSEDIT
Silvio Pazzaglia, Università per stranieri di
Perugia
g
• gratuito
• http://elearning.unistrapg.it/corpora/
Cosa fa?
• Permette di intervenire e correggere rapidamente l’ouput
di Treetagger per poterlo usare in altri applicativi
• Creare una cartella con i file del corpus e rinominare i txt
con estensione .ctx, correggere e poi eventualmente
rinominare in .txt
26
13
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
SCHERMATA POSEDIT
27
Ruhr-Universität Bochum, Germania, 24 maggio
2007
ƒIntervento
manuale, mediante scorrimento (verticale) della
lista
ƒIntervento mediante ricerca globale e sostituzione per
ƒ
ƒ
Termine (forma grafica)
lemma
INTERVENTO MANUALE CON POSEDIT
28
14
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
E I PROBLEMI DI TREETAGGER?
™
Categorie sbagliate
™
™
Mancato riconoscimento nomi
™
™
™
Correzione manuale
Pre-editing (con Taltac2)
Mancato riconoscimento polirematiche
™
™
™
Correzione manuale
Pre-editing (con Taltac2)
Post-editing
Post
editing (con Taltac2)
Parole sconosciute
™
™
Correzione manuale
Post-editing (con Taltac2)
29
Ruhr-Universität Bochum, Germania, 24
maggio 2007
TALTAC 2 E TREETAGGER
Integrazione
• Taltac 2 può pre-trattare il corpus e ricostruirlo normalizzato
• Il testo viene analizzato da TreeTagger
• Il testo può essere poi importato da Taltac2
Potenziamento
• Possibilità
P ibilità di usufruire
f i delle
d ll risorse
i
di TTaltac2
lt 2 per lla
normalizzazione e per il trattamento del corpus
• Concordanze
• Analisi statistiche (misure, co-occorrenze, confronto tra
lessici, analisi delle specificità)
30
15
01/06/2007
Chiari, I. (2007), Introduzione alla linguistica
computazionale, Laterza, Roma-Bari.
LE POLIREMATICHE
Espressioni composte da più di una parola grafica, che
tuttavia si comportano semanticamente e spesso morfosintatticamente come UN SOLO LESSEMA
•stare a cuore, forza pubblica, prigioniero politico, vedere rosso, essere al
verde
«specifico sovrappiù semantico, vale a dire la non
ricostruibilità del loro significato in base alla semplice somma
dei significati dei singoli componenti» (De Mauro)
cristallizzazione morfo-sintattica
•voi due siete proprio due occhi di lince
•non *voi due siete proprio due occhi di linci
Chiari, I. (2007), Introduzione alla linguistica
computazionale, Laterza, Roma-Bari.
LE COLLOCAZIONI
Combinazioni di parole relativamente più libere
delle polirematiche, ma accomunate da una
particolare frequenza d’uso, ossia dalla preferenza
per l’occorrenza congiunta dei suoi componenti.
• compilare un modulo
• obliterare il biglietto
• delitto efferato
Gli elementi che entrano a far parte di una
collocazione sono molto più rigidi e poco
analitici, quindi anche i traducenti in una lingua
straniera tendono a essere imprevedibili
16
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
PROBLEMI PER LA LINGUA ITALIANA
Morfologia flessiva ricca
•Quindi
Q i di una stessa polirematica
li
i sii può
ò trovare iin molte
l fforme
•Ma NON TUTTE le forme
Vederci rosso
•Ci vedo rosso
•Ci avete visto rosso
•Ci vidi rosso
•Ci ho visto proprio rosso
*
•*Ci abbiamo visto rossi
•*Lei ci vide rossa
33
Ruhr-Universität Bochum, Germania, 24
maggio 2007
QUINDI…
Non si possono usare
le misure e gli
strumenti che vanno
bene per l’inglese
È necessario
sviluppare strumenti
che sappiano
riconoscere le
polirematiche
li
ti h it
italiane
li
34
17
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
STRUMENTI
Lessico dei poliformi (FDP)
•Lessico
4.000
L i di poliformi
lif
i (FDP),
(FDP) con circa
i
4
000 poliformi
lif
i
•sia locuzioni di tipo grammaticale, sia gruppi nominali di tipo
polirematico, sia espressioni di verbi idiomatici
•(Bolasco, 1998).
Web Bootcat e Sketch Engine
•Analisi automatica di testi dal web e personali
•Kilgarriff
Kil
iff ett alii
lii
Taltac2 – ricostruzione corpus lemmatizzato
•Procedura per applicare le misure di associazione statistica ai lemmi
35
Ruhr-Universität Bochum, Germania, 24
maggio 2007
WEB BOOTCAT CORPUS IN POCHI SECONDI MA…
Autori
• Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P
Sito web
• http://corpora.sketchengine.co.uk
Bibliografia
• Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P.: WebBootCaT:
instant domain-specific corpora to support human translators.
Proceedings of EAMT 2006, Oslo. (2006) 247-252
36
18
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
COSTRUZIONE DEL CORPUS
37
Ruhr-Universität Bochum, Germania, 24
maggio 2007
38
19
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
SKETCH ENGINE
Autori
• A. Kilgarriff, M. Rundall, e altri
Cosa fa?
• Costruisce riassunti automatici del comportamento
grammaticale di una parola in un corpus
• Estrae collocazioni, misura la similarità tra parole
Strumento per la lessicografia
• Macmillan English Dictionary e molti altri dizionari
39
Ruhr-Universität Bochum, Germania, 24 maggio
2007
40
20
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
CALCIO
41
Ruhr-Universität Bochum, Germania, 24
maggio 2007
CALCIO 2
42
21
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
CONCORDANZA (LEMMATIZZATA)
43
Ruhr-Universität Bochum, Germania, 24
maggio 2007
CONCLUSIONI
Corpora
• per costruire un corpus bisogna risolvere alcuni problemi tecnici
di trattamento dei testi
• se non trattiamo i testi, allora tanto vale andare a esplorare il
web con Google (ma…questo è un altro tema)…
Strumenti
• Nessuno
N
strumento
t
t è perfetto
f tt
• Alcuni strumenti permettono meglio di risolvere alcuni problemi
Perché facciamo questo? ….
44
22
01/06/2007
Ruhr-Universität Bochum, Germania, 24
maggio 2007
DEFINIZIONE DI EAGLES
An electronic corpus is “s
corpus which is encoded in
a standardized and
homogeneous way for openended retrieval tasks”
Un corpus elettronico è “un
corpus che è codificato in
maniera standardizzata e
omogenea per consentire
infinite operazioni di ricerca
45
Ruhr-Universität Bochum, Germania, 24
maggio 2007
GRAZIE!
Le slides powerpoint
• da mercoledì 30 maggio 2007
• sul sito:
www.alphabit.net
• sotto la voce CONVEGNI e NOVITA’
Isabella Chiari
• [email protected]
46
23