Slide Lezione (Corpora).
Transcript
Slide Lezione (Corpora).
La linguistica dei corpora 1 Argomenti trattati nella lezione: DEFINIZIONE ESEMPIO DI UTILIZZO COSTRUZIONE CODIFICA E ANNOTAZIONE STANDARD DI CODIFICA E ANNOTAZIONE ANALISI DI UN CORPUS LE APPLICAZIONI Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale La codifica digitale g del testo che h ti tipo di rappresentazione di it l del digitale d l ttesto? t ? Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Il testo e la sua organizzazione intestazione capitolo titolo testo Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Il testo e la sua struttura linguistica sintagma nominale V andare pass. rem. 3 sing. frase relativa articolo indefinito femminile singolare stanza come luogo stanze = oggetto di riscaldare tutti = soggetto Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale il testo come sequenza di caratteri Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. bambino C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr mastr'Antonio Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale corpus, p , testo e unità testuali Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Definizione Corpus indica una qualiasi raccolta, completa ed ordinata, di scritti, scritti di uno o più autori, autori riguardanti una determinata materia, oppure un campione di una lingua preso in esame nella descrizione della lingua. Una popolazione è un insieme di tutte le possibili osservazioni di una lingua su un dato campo, campo invece, invece un campione, campione è una sezione della popolazione, popolazione che ne ingloba solo alcune possibili osservazioni. Un campione deve essere rappresentativo per essere utile e significativo. Esistono vari metodo per valutare la rappresentatività di un campione, ma la gg parte delle valutazioni p p più accurate si basano sulla ricchezza del maggior vocabolario, misurata come numero di parole diverse presenti nel corpus. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Definizione L’estensione di un corpus è la sua ampiezza, che influenza il grado di rappresentatività di un campione testuale. L’estenzione di un corpus può essere: Statica • • • • • • • Dinamica • Analisi condotte una sola volta e ripetibili Facilmente distribuito U t iin maniera Usato i standardizzata t d di t Comparabilità dei risultati Analisi di tipo diacronistico Lavoro continuativo Maggiore difficoltà di distribuzione e trattamento Necessità di un corpus monitor Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Definizione Il world wide web può essere considerato un corpus: • enorme, • facilmente accessibile, i • gratuito, • vario negli stili, nelle tipologie e nei contenuti. Mancanza di varietà Accesso ai dati filtrato Forte tasso di errore Rappresentazione sbilanciata elementi linguistici Dinamicità incontrollata Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Tipologia ed uso Principali usi dei corpora { applicativo Ù tipico dell’ingegneria del linguaggio, per progettare strumenti: | | { dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi di un certo dominio o varietà di linguaggio “robusti” e ben adattati al linguaggio reale analitico Ù per fondare analisi e descrizioni linguistiche sull’effettiva distribuzione delle costruzioni e fenomeni all’interno di un linguaggio al fine di valutare ipotesi teoriche sulla sua forma linguaggio, ed organizzazione Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Esempio p d’uso Il Corpus di Italiano Televisivo (CiT) si propone di effettuare analisi linguistiche dell'italiano contemporaneo, su dati quantitativi strutturati e affidabili. Più in particolare, ha come obiettivo l'analisi e la d descrizione d ll delle peculiarità l à lessicali l l e grammaticali della varietà trasmessa dell'italiano contemporaneo. Tale corpus annotato è stato realizzato con trascrizioni di alcune trasmissioni andate in onda sulle televisioni italiane, selezionate secondo un apposito criterio. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Esempio p d’uso Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Esempio p d’uso Esempio di interrogazione: tecnicismi nelle trasmissioni sportive, con POS attivo Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Esempio p d’uso Esempio di interrogazione: ricerca verbi al gerundio (TOS a colori) Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Esempio p d’uso Esempio di interrogazione: lista di distribuzione dei verbi al gerundio Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Tipi di corpora y corpus specialistico i li ti { orientato alla descrizione di una particolare varietà del linguaggio (sublanguage) o ad un ristretto dominio applicativo Ù Ù Ù Ù y analisi della terminologia biomedica, ecc. linguaggio infantile linguaggio g gg sportivo, p , economico,, ecc. linguaggio patologico corpus generale o di riferimento (reference corpus) { { { { trasversale rispetto alle diverse varietà di un linguaggio L plurifunzionale orientato a rappresentare tutti gli aspetti caratteristici di L, L proponendosi come risorsa di riferimento per la descrizione di L può essere organizzato in vari sottocorpora specializzati per varietà di L Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Tipi di corpora y corpus sincronico { y corpus diacronico { y descrive il mutamento linguistico (i testi appartengono a diverse finestre temporali) corpus monolingue { y descrive un particolare stadio del linguaggio (i testi appartengono tutti ad una stessa finestra temporale) contiene testi di una sola lingua corpus bi/plurilingue { corpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una lingua Ù { corpus allineato lli – ciascuna i frase f (parola) ( l ) della d ll lingua li L1 è esplicitamente li i collegata col suo traducente nella lingua L2 corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle p g ((ciascuna lingua g è rappresentata pp da testi diversi)) stesse tipologie Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Tipi di corpora y corpus di scritto { y corpus di parlato { y testi scritti e trascrizioni di parlato (in proporzioni variabili) speech database { y solo trascrizioni di linguaggio parlato corpus misto i t { y solo testi di linguaggio scritto campioni di linguaggio parlato in forma di segnale acustico (più eventualmente la trascrizione ortografica) corpus multimediale lti di l { testi scritti, video, parlato in forma di segnato acustico, ecc. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Corpora p paralleli p y Canadian Hansard Corpus (2001) { 11,3 3 milioni di frasi francesi francesi-inglesi inglesi allineate a livello di frase, frase tratte dagli atti del Parlamento Canadese Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Corpora p paralleli p y MULTEXT (1996) { { 5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) g 800.000 parole allineate a livello di frase (inglese come lingua “pivot”) Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Quante Qua te pa parole o e co compongono po go o u un’unità u tà d di testo testo? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, p , posti di blocco e perquisizioni. ma cos’è cos è una “parola”? parola ? Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Il “bestiario” del testo L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del 26.6.1999, pag. 1), … Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Ambiguità g nel token Tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token esso stesso) Ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: 18.3.2003 sigle e abbreviazioni: O.N.U., O N U sig sig.ra, ra S S. Siro ecc. Tokenizzare un testo significa segmentarlo in token (parole unità) attraverso regole che risolvono i casi ambigui Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Come contare? ((unità e tipo) p ) il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero totale di unità in un testo è la lunghezza del testo misurata in parole il numero di tipi (o cardinalità dell‘insieme) di parole in un testo è uguale a quante p q parole diverse si trovano nel testo il numero totale di tipi di parole in un testo è la grandezza del suo vocabolario Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Esempio p Le ricerche L i h di G Gabriella b i ll sono proseguite it per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di unità di preposizioni: di 2 per 1 con 1 numero dei d i tipi ti i di preposizioni i i i 3 numero totale di unità di preposizioni 4 Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Esempio p ((II)) Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 19 “parole p unità” ((inclusa la p punteggiatura) gg ) 1 parola tipo con 2 occorrenze 17 parole tipo con 1 occorrenza ciascuna TESTO di , . bl blocco con e elicotteri gabriella la le per perquisizio posti proseguite it ricerche serata sono tutta freq 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Il vocabolario di “esempio” p Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 18 “parole” diverse ||V|| = 18 chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora ll |V |= | |V1| + |V2| +...+ + + |Vmax|, | dove max è la frequenza massima con cui una parola appare p pp nel nostro testo TESTO di , . bl blocco con e elicotteri gabriella la le per perquisizio posti proseguite it ricerche serata sono tutta freq 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Lunghezza g di una p parola e di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono p g la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole deviazione standard ∑ (li − l ) 2 i N Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Lunghezza g di una p parola e di un testo TESTO le ricerche di gabriella sono proseguite p g per tutta la serata con elicotteri , posti di blocco e perquisizioni . lunghezza testo in caratteri numero di occorrenze di token lunghezza media per token lunghezza 2 8 2 9 4 10 3 5 2 6 4 10 1 5 2 6 1 13 1 token 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 94 19 4.947368 Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Quant’è ricco il vocabolario di un testo? il rapporto “tipo/unità” tipo/unità Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. ““rapporto t tipo/unità”: ti / ità” rapporto t tra t cardinalità di lità del d l vocabolario e frequenza globale del testo ||V|| / N 40/44 = 0.91 0 < ( |V| / N ) ≤ 1 Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Quant’è ricco il vocabolario di un testo? il numero di “h “hapax legomena” l ” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' e stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax h llegomenon è una parola l con ffrequenza 1 1, cioè un membro della classe di frequenza V1 ||V1||/ N 37/44 = 0.84 Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Costruzione Scelta della struttura in base alla voluta rappresentativi tà Pi ifi i Pianificazione Acquisizione Concreto reperimento del materiale Analisi Eliminazione errori presenti Analisi A li i d deii termini costituenti C i Correzione p Fasi della costruzione di un corpus Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Costruzione Stabilire regole di analisi Segmentazione dei confini delle parole Distinzione di lessemi e types Individuazione delle occorrenze Passi di analisi del materiale iniziale di un corpus Valutazione di un corpus: Il rapporto tra i tipi di parole e le occorrenze testuali (type/token ratio) ci dà un’approssimazione della ricchezza del vocabolario del questa misura,, che non tiene testo esaminato. Esiste anche un’altra definizione di q conto dei types, ma dei lessemi. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Codifica e annotazione L’annotazione è una forma di codifica di un corpus, e consiste nell’associazione di un’etichetta a una porzione specifica e ben d li it t di testo. delimitata t t Il linguaggio usato per la specifica delle etichette è detto linguaggio di markup. Il metalinguaggio di markup è un ulteriore livello di astrazione, e stabilisce la forma sintattica delle etichette. etichette Costituisce la base per il processo di validazione delle etichette. Il p processo di annotazione p può essere: Semi-automatico Manuale Automatico Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione Requisiti di uno standard di annotazione Indipendenza di ffruizione i i Specifica delle operazioni Esplicitazione dei criteri di annotazione Forma standard di codifica Esplicazione fasi di annotazione Separazione e autonomia tra materiale grezzo e quello della codifica f Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione TEI ha definito delle linee guida per ll’annotazione annotazione di corpora: • Uso del formato di marcatura SGML o XML; • Codifica dei caratteri ISO 646 e Unicode; • Annotazione di tipo strutturale/semantico; • Ontologia di annotazione comune; • Definizione di un insieme standard di etichette; • Diversificazione del livello di annotazione in: 1. Etichettatura obbligatoria; 2. Etichettatura raccomandata; p 3. Etichettatura opzionale. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione La creazione di documenti TEI è fatta in conformità ad un set di DTD XML. Set Addizionali • Elementi speciali p • Header speciali Set Base • Tipizzazione p dei testi • Elementi specifici Set Core • Elementi comuni • Struttura dell’header Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione Esempio di annotazione di un corpus con TEI e di header di un corpus annotato. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione ATLAS è un’architettura e un insieme di strumenti per l’analisi di risorse linguistiche lineari. Consente di segmentare il materiale e di tipizzare le annotazioni, annotazioni comprendendo un set di metainformazioni basato su Dublin Core. È caratterizzato da un modello di annotazione molto astratto, che lascia spazio p all’adattamento a specifiche p esigenze. g AIF API Ontologia MAIA A T L A S Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione Segnale Annota zione A Ancora Ontologia Conte nuto Regione Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione L’architettura di annotazione è relativamente generale, con pochi vincoli. vincoli L’API permette la connessione delle ontologie di base con le applicazioni, la definizione di tipi (MAIA) ed un linguaggio di interrogazione (AQL). ATLAS S fornisce o sce a anche c e se servizi v si Input/Output, collegati alle ontologie e ai segnali d’origine. g Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione y Mentre ATLAS e TEI si occupano soprattutto di norme generali per la codifica di qualunque tipo di testo esistono altri standard che si focalizzano testo…. sulle annotazioni linguistiche y Il Corpus Encoding Standard (CES) è un progetto di codifica dei corpora ideato per applicazioni di ingegneria linguistica Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Standard di codifica e annotazione CES è uno strumento per la codifica basato su annotazioni strutturali e grammaticali. È conforme alle TEI Guidelines, e utilizza SGML e XML. C Comprende d note d’uso d’ d l metalinguaggio, del li i set di elementi l i di documentazione, d i ed d etichette. La codifica L difi dei d i dati d ti primari i i riguarda i d tre t ambiti: biti • Divisione del testo in frasi e parole; • Descrizione morfosintattica delle parole; • Allineamento e collegamento di testi. testi Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Analisi di un corpus p Analisi f frequenza L’analisi di un corpus si compone fondamentalmente di tre task distinti. Un’analisi di frequenza è lo studio del numero di occorrenze per ogni forma che compare nel corpus. Lemma tizzazione Analisi concordanze La lemmatizzazione è la o riduzione della forma flessa di uno stesso lessema a un solo lemma. L’analisi delle concordanze è l’individuazione del cotesto di ogni parola. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Analisi di un corpus p L’analisi di frequenza genera una lista di frequenza, ovvero una tabella, in cui sono inserite le varie forme che compaiono nel corpus, congiuntamente a due misure: • Numero di occorrenze assoluto l di ognii singola i l forma f nell corpus; • Frequenza relativa delle occorrenze per ogni forma nel corpus. Frequenza relativa = (Fw/N) Il risultato di un’analisi di frequenza è detta formario del corpus. Questa operazione può essere condotta anche a valle di una lemmatizzazione, ottenendo un formario l lemmatizzato. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Analisi di un corpus p La frequenza L f (f) iindica di globalmente l b l t il numero di occcorrenze di una specifica ifi parola. La dispersione (D) evidenzia se sono presenti delle concentrazioni di occorrenze Suddivisione corpus in parti Frequenze relative Misura dispersione Misura della dispersione: p La stima d’uso (U) di un particolare elemento linguistico è dato da U = Df Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Analisi di un corpus p Per poter P t svolgere l l lemmala l tizzazione in maniera automatica, un software deve: • disporre di tutte le possibile forme flesse di un lessema; • saperle riconoscere nel corpus in analisi; • poterle sostituire con il lemma giusto. Il risultato del processo di lemmatizzazione è una lista lemmata, con le forme flesse del corpus, il relativo inquadramento sintattico e lemma. Per realizzare una lista lemmata, è doveroso essere in grado di risolvere la disambiguazione degli omografi: forme flesse con la stessa scrittura, ma che si riferiscono a lemmi differenti. differenti Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Analisi di un corpus p Il cotesto di una parola è l’insieme delle parole che si accompagnano a quella in esame all’interno di un corpus. Fornisce informazioni d’uso della specifica parola, e aiuta ad individuare i casi d’uso p più frequenti. q La concordanza è lo strumento per estrarre da un corcor pus le parole e i relativi cotesti. La concordanza presenta le parole del corpus, indicandone la frequenza di occor occorrenza e il cotesto, che viene indicato in forma KWIC. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Le applicazioni pp dello studio dei corpora p Dizionari • Individuazione accezioni delle parole • Incidenza termini nell’uso corrente • Definizione casi d’uso delle p parole Grammatiche • Maggiore aderenza agli usi correnti della lingua g • Individuazione regole d’uso della lingua Trattamento automatico • Realizzazione parser parser, tagger e lemmatizlemmatiz zatori statistici • Traduzione automatica più accurata Didattica • Realizzazione testi adeguabili alle esigenze degli studenti • Organizzazione g insegnamento g della lingua g Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale