costruire corpora
Transcript
costruire corpora
01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 Isabella Chiari TRATTAMENTO DI TESTI ITALIANI: STRUMENTI, RISORSE E PROBLEMI 1 Ruhr-Universität Bochum, Germania, 24 maggio 2007 CORPORA E APPLICAZIONI Perché la linguistica dei corpora è oggi tanto rilevante? Come si integra la linguistica dei corpora con la linguistica computazionale? Quali sono i principali problemi che chi costruisce corpora deve risolvere? Esistono strumenti che aiutano chi fa ricerca linguistica a costruire corpora per la pubblicazione? 2 1 01/06/2007 Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. I CORPORA IN LINGUISTICA COMPUTAZIONALE Lessicografia elettronica corpus-based •Dizionari informatizzati •Dizionari macchina corpus based Training corpora per il NLP •Taggers e parsers con training corpora Traduzione automatica •Corpus-based •Example-based machine translation Tecnologie del parlato •Addestramento allo speech recognition •Sintesi corpus-based Machine learning – Information technology •Individuazione automatica di patterns estratti dai dati Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. IL CIRCOLO VIRTUOSO Corpora linguistici Applicazioni per il trattamento dei corpora Elaborazione e trattamento del materiale testuale Strumenti di NLP Tecnologie del parlato TA Dizionari-macchina Corpora p etichettati •Strumenti NLP •Parsing e tagging Training corpora per strumenti di NLP – MACHINE LEARNING 2 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 CORPORA PUBBLICI E CORPORA INDIVIDUALI 5 Ruhr-Universität Bochum, Germania, 24 maggio 2007 3 PROBLEMI Normalizzazione • Determinazione degli insiemi ALFABETO E SEPARATORI • Ambiguità nella punteggiatura (punto, trattino, apostrofo, accenti), ecc. • Nomi propri, di luoghi, sigle non riconosciuti, ecc. • Unità di misura, numeri (euro, 29), ecc. Disambiguazione delle omografie • Omografi assoluti e testuali Individuazione delle polirematiche 6 3 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 NORMALIZZAZIONE: CHE COS’È? Pre-trattamento ortografico •La riduzione di ambiguità dovute alle convenzioni ortografiche •individuazione un insieme di simboli come alfabeto (a, b, c, 5, 8) e un insieme di separatori (.,;:/?!) •ogni simbolo (il punto, la virgola, la barra, ecc.) sia univoco, ossia non venga utilizzato in modi diversi nello stesso corpus Pre-trattamento linguistico •Riconoscimento di strutture cristallizzate •come sigle, titoli, toponimi, nomi propri (prima di ridurre eventualmente le maiuscole) •Riconoscimento di locuzioni grammaticali e polirematiche note (da lista) 7 Ruhr-Universität Bochum, Germania, 24 maggio 2007 UN ESEMPIO: TALTAC 2 Trattamento automatico lessicale e testuale per l’analisi del contenuto di un corpus Sergio Bolasco • Università La Sapienza di Roma (Economia) Analisi lessicali e testuali • Integrazione con risorse di riferimento (vocabolari, lessici di frequenza) • con altri programmi di trattamento statistico (Lexico, Spad) • e linguistico 8 4 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 NORMALIZZAZIONE: DEFINIZIONE ALFABETO 9 Ruhr-Universität Bochum, Germania, 24 maggio 2007 NORMALIZZAZIONE PUNTEGGIATURA •Apostrofi in accenti •Maiuscolo/minuscolo M i l / i l POLIREMATICHE E COLLOCAZIONI (base) •Locuzioni gramm. •Polirematiche nominali NOMI •nomi propri •toponimi •celebrità •titoli •Sigle LISTE PERSONALIZZATE 10 5 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 COSÌ OTTENGO AD ESEMPIO…LOCUZIONI COME.. 11 Ruhr-Universität Bochum, Germania, 24 maggio 2007 NOMI PROPRI, SIGLE, FORMULE 12 6 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 NORMALIZZAZIONE: TESTO INTERNET 2004 PRON 60 A A 746 AVV CONG PREP 2.589 ESC FORM AVV 4.323 NM 1.150 N NM PREP PRON N 1.301 FORM 163 ESC 3 CONG 552 13 Ruhr-Universität Bochum, Germania, 24 maggio 2007 PRIMA E DOPO LA NORMALIZZAZIONE Dati corpus TOKEN (occorrenze) TYPES OMOGRAFI Prima della normalizzazione Normalizzato Differenza 254.365 240.173 14.192 20.130 18.730 1.400 123.097 108.760 (45,3%) 14.337 (48,4%) 14 7 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 GLI OMOGRAFI - TIPOLOGIE Omografi (omonimi, omofoni) •parole caratterizzate da un significante comune, ma che rimandano a significati radicalmente diversi, diversi spesso senza alcuna parentela etimologica Omografi assoluti •Calcio •“pedata” •“Ca” •“impugnatura p g di un fucile o p pistola” Omografi testuali •Faccia •“viso” •“voce del verbo fare” 15 Ruhr-Universität Bochum, Germania, 24 maggio 2007 STRUMENTI Omografi assoluti • Word sense disambiguation • Strumenti probabilistici/statistici • Opzionale (attualmente ancora indietro) Omografi testuali (relativi) • POS OS tagging e Lemmatizzatori • Basati su regole • Probabilistici • Operazione di base per ogni corpus 16 8 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 SE NON RISOLVO IL PROBLEMA OTTENGO… 17 Ruhr-Universität Bochum, Germania, 24 maggio 2007 E SE GUARDO LE CONCORDANZE TROVO: 18 9 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 QUANTI SONO IN MEDIA GLI OMOGRAFI IN UN TESTO ITALIANO? Tullio De Mauro in Capire le parole (1999) riporta: • Il tasso di omonimia relativa o testuale è • Scritti tecnici (economia e finanza): 38,6% • LIP 46% Il tasso di omografia testuale dipende dalla tipologia testuale • Testi con parole più brevi (come le trascrizioni del parlato, ecc.) tendono ad avere più omografi dei linguaggi tecnico-specialistici • È una conseguenza della legge di Zipf sul numero dei significati e della saturazione (Guiraud) maggiore nelle parole brevi. 19 Ruhr-Universität Bochum, Germania, 24 maggio 2007 ALCUNI ESEMPI TESTI Codice penale Internet 2004 informatica Caos Calmo (S. Veronesi) narrativa LIP Corpus Roma parlato l.l giuridico Token 68.728 254.365 123.781 135.716 Types 5.160 20.130 16.819 11.922 Omografi testuali 3.486 123.097 60.018 65.630 % omografi 47% 49% 49% 49% Parole sconosciute 4% 4% 11% 6% 20 10 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 POS TAGGING E LEMMATIZZAZIONE Il part-of-speech (POS) tagging • etichettatura automatica per categorie grammaticali • Il tagger riceve in input una frase e restituisce in output le forme grafiche delle parole accompagnate da etichette che segnalano la categoria grammaticale di appartenenza ESEMPIO: la forma grafica <LA> • potrebbe corrispondere a tre etichettature grammaticali possibili: • determinante (articolo) • nome (nota musicale) • pronome (pronome personale) Tipologie • Tagger basati su regole (dizionario-macchina e grammatica) • Tagger probabilistici (training, parametri, applicazione statistica) 21 Ruhr-Universität Bochum, Germania, 24 maggio 2007 UN ESEMPIO: TREETAGGER Autori •Helmut Schmid, Institute for Computational Linguistics of the University of Stuttgart Gratuito e condiviso •Scaricabile (Mac, Windows, Linux) •Online (max 2 mega): http://cental.fltr.ucl.ac.be/~pat/tagger/ Tagger probabilistico •Usa U decision d i i trees t •Che determina automaticamente l’ampiezza del contesto per calcolare le probabilità di transizione (più adatto delle catene markoviane per eventi rari) •96,36% di precisione sul Penn-Treebank (inglese) 22 11 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 OUTPUT DI TREETAGGER 23 Ruhr-Universität Bochum, Germania, 24 maggio 2007 PROBLEMI CON TREETAGGER I parametri • non vanno bene per tutte le tipologie testuali, • ad esempio il parlato • Spesso costruire un training corpus ah hoc non è possibile (1.000.000 di tokens, manualmente corretti) • Il tagger va comunque sottoposto a nuovo training se si vuole ampliare il suo lessico Errori sistematici • Participi e aggettivi • Mancato riconoscimento di nomi • Mancata indicazione di polirematiche 24 12 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 TRAINING E CORREZIONE MANUALE Training corpus • Se si dispone già di un ampio corpus annotato • Se la tipologia è molto uniforme, e il vocabolario è ridotto • es. meteo, oroscopo, ricette, istruzioni per l’uso, ecc. Correzione manuale • Se il corpus è piccolo pp • oppure • Se è assolutamente necessaria una corretta annotazione • per esempio se si vuole pubblicare il corpus di uno o più testi di un autore • Se si può contare su un numero ampio di collaboratori 25 Ruhr-Universität Bochum, Germania, 24 maggio 2007 UN AIUTO NELLA CORREZIONE: POSEDIT Silvio Pazzaglia, Università per stranieri di Perugia g • gratuito • http://elearning.unistrapg.it/corpora/ Cosa fa? • Permette di intervenire e correggere rapidamente l’ouput di Treetagger per poterlo usare in altri applicativi • Creare una cartella con i file del corpus e rinominare i txt con estensione .ctx, correggere e poi eventualmente rinominare in .txt 26 13 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 SCHERMATA POSEDIT 27 Ruhr-Universität Bochum, Germania, 24 maggio 2007 Intervento manuale, mediante scorrimento (verticale) della lista Intervento mediante ricerca globale e sostituzione per Termine (forma grafica) lemma INTERVENTO MANUALE CON POSEDIT 28 14 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 E I PROBLEMI DI TREETAGGER? Categorie sbagliate Mancato riconoscimento nomi Correzione manuale Pre-editing (con Taltac2) Mancato riconoscimento polirematiche Correzione manuale Pre-editing (con Taltac2) Post-editing Post editing (con Taltac2) Parole sconosciute Correzione manuale Post-editing (con Taltac2) 29 Ruhr-Universität Bochum, Germania, 24 maggio 2007 TALTAC 2 E TREETAGGER Integrazione • Taltac 2 può pre-trattare il corpus e ricostruirlo normalizzato • Il testo viene analizzato da TreeTagger • Il testo può essere poi importato da Taltac2 Potenziamento • Possibilità P ibilità di usufruire f i delle d ll risorse i di TTaltac2 lt 2 per lla normalizzazione e per il trattamento del corpus • Concordanze • Analisi statistiche (misure, co-occorrenze, confronto tra lessici, analisi delle specificità) 30 15 01/06/2007 Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. LE POLIREMATICHE Espressioni composte da più di una parola grafica, che tuttavia si comportano semanticamente e spesso morfosintatticamente come UN SOLO LESSEMA •stare a cuore, forza pubblica, prigioniero politico, vedere rosso, essere al verde «specifico sovrappiù semantico, vale a dire la non ricostruibilità del loro significato in base alla semplice somma dei significati dei singoli componenti» (De Mauro) cristallizzazione morfo-sintattica •voi due siete proprio due occhi di lince •non *voi due siete proprio due occhi di linci Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. LE COLLOCAZIONI Combinazioni di parole relativamente più libere delle polirematiche, ma accomunate da una particolare frequenza d’uso, ossia dalla preferenza per l’occorrenza congiunta dei suoi componenti. • compilare un modulo • obliterare il biglietto • delitto efferato Gli elementi che entrano a far parte di una collocazione sono molto più rigidi e poco analitici, quindi anche i traducenti in una lingua straniera tendono a essere imprevedibili 16 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 PROBLEMI PER LA LINGUA ITALIANA Morfologia flessiva ricca •Quindi Q i di una stessa polirematica li i sii può ò trovare iin molte l fforme •Ma NON TUTTE le forme Vederci rosso •Ci vedo rosso •Ci avete visto rosso •Ci vidi rosso •Ci ho visto proprio rosso * •*Ci abbiamo visto rossi •*Lei ci vide rossa 33 Ruhr-Universität Bochum, Germania, 24 maggio 2007 QUINDI… Non si possono usare le misure e gli strumenti che vanno bene per l’inglese È necessario sviluppare strumenti che sappiano riconoscere le polirematiche li ti h it italiane li 34 17 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 STRUMENTI Lessico dei poliformi (FDP) •Lessico 4.000 L i di poliformi lif i (FDP), (FDP) con circa i 4 000 poliformi lif i •sia locuzioni di tipo grammaticale, sia gruppi nominali di tipo polirematico, sia espressioni di verbi idiomatici •(Bolasco, 1998). Web Bootcat e Sketch Engine •Analisi automatica di testi dal web e personali •Kilgarriff Kil iff ett alii lii Taltac2 – ricostruzione corpus lemmatizzato •Procedura per applicare le misure di associazione statistica ai lemmi 35 Ruhr-Universität Bochum, Germania, 24 maggio 2007 WEB BOOTCAT CORPUS IN POCHI SECONDI MA… Autori • Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P Sito web • http://corpora.sketchengine.co.uk Bibliografia • Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P.: WebBootCaT: instant domain-specific corpora to support human translators. Proceedings of EAMT 2006, Oslo. (2006) 247-252 36 18 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 COSTRUZIONE DEL CORPUS 37 Ruhr-Universität Bochum, Germania, 24 maggio 2007 38 19 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 SKETCH ENGINE Autori • A. Kilgarriff, M. Rundall, e altri Cosa fa? • Costruisce riassunti automatici del comportamento grammaticale di una parola in un corpus • Estrae collocazioni, misura la similarità tra parole Strumento per la lessicografia • Macmillan English Dictionary e molti altri dizionari 39 Ruhr-Universität Bochum, Germania, 24 maggio 2007 40 20 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 CALCIO 41 Ruhr-Universität Bochum, Germania, 24 maggio 2007 CALCIO 2 42 21 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 CONCORDANZA (LEMMATIZZATA) 43 Ruhr-Universität Bochum, Germania, 24 maggio 2007 CONCLUSIONI Corpora • per costruire un corpus bisogna risolvere alcuni problemi tecnici di trattamento dei testi • se non trattiamo i testi, allora tanto vale andare a esplorare il web con Google (ma…questo è un altro tema)… Strumenti • Nessuno N strumento t t è perfetto f tt • Alcuni strumenti permettono meglio di risolvere alcuni problemi Perché facciamo questo? …. 44 22 01/06/2007 Ruhr-Universität Bochum, Germania, 24 maggio 2007 DEFINIZIONE DI EAGLES An electronic corpus is “s corpus which is encoded in a standardized and homogeneous way for openended retrieval tasks” Un corpus elettronico è “un corpus che è codificato in maniera standardizzata e omogenea per consentire infinite operazioni di ricerca 45 Ruhr-Universität Bochum, Germania, 24 maggio 2007 GRAZIE! Le slides powerpoint • da mercoledì 30 maggio 2007 • sul sito: www.alphabit.net • sotto la voce CONVEGNI e NOVITA’ Isabella Chiari • [email protected] 46 23