Corpora e rappresentatività
Transcript
Corpora e rappresentatività
Linguistica Computazionale Corpora definizione e tipologia 29 settembre 2014 Corpora di prima generazione Brown Corpus l Il primo corpus computazionale in formato elettronico, iniziato nel 1961 l l l Dimensione l l l l l 1 milione di parole tratte da materiale pubblicato nel 1961 appartenente a vari generi Tratti caratteristici: l l Francis e Kucera (Brown University) corpus standard di American English contemporaneo generale sincronico monolingue Registrato su 100.000 schede perforate e trasferito su nastri magnetici nel 1964. Disponibile su CD-ROM Modello di riferimento per tutti i corpora di prima generazione 2 Corpora di prima generazione Brown Corpus 3 Corpora di prima generazione Lancaster-Oslo/Bergen (LOB) Corpus l Costruito con gli stessi criteri del Brown Corpus, completato nel 1978 l l Controparte del Brown per il British English l l consente una diretta comparazione tra le due varianti di inglese Dimensione l l Leech e Garside (Lancaster), Johansonn (Oslo) 1 milione di parole tratte da materiale pubblicato nel 1961 appartenente a vari generi linguistici Tratti caratteristici: l l l generale sincronico monolingue 4 Corpora di prima generazione Lancaster-Oslo/Bergen (LOB) Corpus 5 Corpora di seconda generazione British National Corpus (BNC) l Corpus del British English (1991-1994) l l Dimensione: l l creato da un consorzio accademico (Oxford, Lancaster, ecc.) ed editoriale (Oxford University Press, Longman, ecc.) 100 milioni di parole Tratti caratteristici l l l l generale monolingue sincronico misto l l l l 90% testi scritti di vari generi 10% testi di parlato trascritto (conversazioni spontanee) codificato e annotato http://www.natcorp.ox.ac.uk/ 6 Corpora di seconda generazione PAROLE l Corpora multilingue comparabili per 14 lingue europee l l l catalano, danese, finlandese, francese, francese belga, greco, inglese, irlandese, italiano, norvegese olandese, portoghese, svedese, tedesco tutti i corpora sono stati costruiti secondo criteri e specifiche uniformi PAROLE-Italiano (1996-1998) l l realizzato presso l’ILC-CNR (Pisa) Dimensione: l l l 21 milioni di parole tratte da testi scritti di vari generi (libri, giornali periodici, miscellanee) attualmente portate a ca. 100 milioni Tratti caratteristici l l l l l generale sincronico (internamente) monolingue codificato http://www.ilc.cnr.it/pisystem/demo/demo_dbt/demo_corpus/index.htm 7 Corpora di seconda generazione PAROLE 8 Corpora di seconda generazione La Repubblica l Corpus monolingue dell’italiano giornalistico l l l Dimensione l l SSLiMIT Forlì (Baroni et al. 2004) http://dev.sslmit.unibo.it/corpora/corpus.php? path=&name=Repubblica ca. 326 milioni di parole Tratti caratteristici: l l l l generale come dominio tematico, ma specialistico come tipologia testuale scritto monolingue annotato l il corpus è lemmatizzato e annotato a livello morfosintattico 9 Corpora di parlato l Map Task Corpus (1992) l University of Edimburgh (HCRC) e University of Glasgow l l l http://www.hcrc.ed.ac.uk/maptask/maptask-description.html Archivio di Varietà di Italiano Parlato (AVIP) (2001) l l l 18 h, 128 dialoghi semi-spontanei “task-oriented” (map-task), trascritti e comprensivi di segnale acustico 3,5 h, 44 dialoghi semi-spontanei “task-oriented” (map-task) (39 prodotti da adulti e 5 da bambini), trascritti registrazioni effettuate a Pisa, Napoli e Bari C-ORAL-ROM l l corpus audio della lingua parlata spontanea. Il corpus è comparabile con altri corpora per spagnolo, francese e portoghese registrazioni audio per un totale di 300.000 parole, trascritte 10 Corpora paralleli l Canadian Hansard Corpus (2001) l 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese 11 Corpora paralleli l European Parliament Proceedings Parallel Corpus (1996-2011) l l estratti dagli atti del Parlamento Europeo include versioni allineate a livello di frase in 21 lingue europee (l’inglese è la lingua pivot) l l l l francese, italiano, spagnolo, portoghese, inglese, olandese, tedesco, danese, svedese, greco, finlandese, etc. la sezione italiana contiene ca. 52 milioni di parole finalizzato alla traduzione automatica statistica http://www.statmt.org/europarl/index.html 12 Corpora paralleli Europarl Corpus <SPEAKER ID=2 LANGUAGE=”IT" NAME="Evans, Robert J"> <SPEAKER ID=2 NAME="Evans, Robert J"> Signora Presidente, intervengo per una mozione d'ordine. Madam President, on a point of order. Come avrà letto sui giornali o sentito alla televisione, in Sri Lanka si sono verificati numerosi assassinii ed esplosioni di ordigni. You will be aware from the press and television that there have been a number of bomb explosions and killings in Sri Lanka. 13 Corpora specialistici l Switchboard Corpus (1992) l l l 2.400 conversazioni telefoniche registrate in varie regioni degli USA e trascritte (ca. 3 milioni di parole) applicazioni: Automatic Speech Recognition (ASR), Speaker Identification, ecc. Child Language Data Exchange (CHILDES) (B. MacWhinney) l l l database di interazioni conversazionali di bambini in fase di apprendimento linguistico o di soggetti con patologie del linguaggio finalità: studio dell’apprendimento linguistico “meta-corpus”: l l l sistema per la raccolta, trascrizione e trattamento di di dati linguistici collezione di dati aperta http://childes.psy.cmu.edu/ 14 Corpora multimodali l Human Speechome Project (Deb Roy, MIT Media Lab) l l 10 ore al giorno di registrazione continua audio-video di un bambino dalla nascita a 3 anni nella sua abitazione ca. 90K ore di video e 140K ore di audio registrazioni, parzialmente trascritte in modo automatico l “To study a corpus of this scale and richness, current methods of developmental cognitive science are inadequate” (Roy 2009) 15 I corpora oggi l l l l l l I corpora generali più recenti ospitano spesso proporzioni variabili di parlato trascritto Esiste un numero crescente di corpora audio e corpora multilingui (soprattutto paralleli allineati), e specialistici Il numero di lingue per le quali esistono corpora di varie tipologie è in continuo aumento Si preferisce includere in un corpus testi interi per garantire la massima naturalezza dei dati linguistici estraibili I testi sono riccamente codificati e sempre più estensivamente annotati Strumenti informatici sofisticati (basi di dati, interfacce di ricerca, ecc.) potenziano la fruibilità dei dati linguistici nei corpora 16 Risorse di corpora Corpora di grandi dimensioni e di varie tipologie esistono per un numero crescente di lingue l Agenzie per la distribuzione di corpora l l l Language Data Consortium (LDC) l http://www.ldc.upenn.edu/ European Language Resources Association (ELRA) l http://www.elra.info/ Consultazione on-line di corpora (a pagamento) l Sketchengine (http://www.sketchengine.co.uk) 17 Linguistica Computazionale Corpora il corpus come campione 29 settembre 2014 Il corpus come campione l Il linguaggio è un sistema potenzialmente illimitato l l è possibile comprendere e generare un numero potenzialmente infinito di frasi in termini statistici: l l le frasi di un linguaggio formano una popolazione infinita Un corpus è una porzione finita di un linguaggio dalla quale cerchiamo di ricostruire le proprietà dell’intero sistema l in termini statistici il corpus è un campione di un linguaggio corpus1 corpus2 linguaggio corpus2 19 Il corpus come campione Un corpus è una raccolta di testi selezionati e organizzati secondo espliciti criteri, allo scopo di essere usata come campione rappresentativo del linguaggio o di una sua particolare varietà (McEnery & Wilson 2001, Corpus Linguistics) l Concetti chiave: l l l selezione campione rappresentatività 20 Campione e popolazione l Popolazione l l’insieme di tutte le entità, con particolari caratteristiche, che sono oggetto di indagine l l es. gli studenti dell’Università di Pisa Campione l sottoinsieme della popolazione l es. A = {studenti maschi di Lettere con meno di 20 anni} § l Problema: il campione A non è rappresentativo della popolazione!! es. B = {studenti maschi e femmine di varie fasce di età di Lettere, Lingue, Scienze, Giurisprudenza, Medicina, ecc} § il campione è maggiormente rappresentativo della popolazione studentesca 21 Il corpus come campione l Popolazione linguistica l l insieme di tutti i testi che appartengono ad un linguaggio L o a una sua varietà, oggetto di studio l es. il linguaggio sportivo, l’italiano, ecc. Corpus l l un campione (rappresentativo) del linguaggio la rappresentatività del campione permette di generalizzare (induttivamente) le proprietà linguistiche del corpus (es. distribuzione dei termini lessicali, tipologia di strutture sintattiche, ecc.) all’intera popolazione 22 Corpus e rappresentatività l Un corpus è un campione rappresentativo di una data popolazione linguistica se e solo se: l l fornisce un modello delle proprietà linguistiche della popolazione, ovvero è in grado di restituire un quadro il più accurato possibile delle varietà e tendenze linguistiche della popolazione, rispettandone le proporzioni 23 Corpus e rappresentatività A corpus seeks to represent a language or some part of a language. The appropriate design for a corpus therefore depends upon what is meant to represent. Representativeness of the corpus, in turn, determines the kind of research questions that can be addressed and the generalizability of the results of the research. Biber (1998): 246 l l Per essere rappresentativo di una lingua o varietà un corpus deve tenere traccia dell’intero ambito di variabilità dei suoi tratti e proprietà Corpus linguistics l tenta di definire criteri scientifici per la selezione di campioni di testi rappresentativi 24 Rappresentatività e tipi di corpora La complessità dell’operazione di selezione dipende dalla generalità della lingua che il corpus deve rappresentare l Corpora specialistici l l varietà ristrette di lingua l i corpora per lo studio della lingua di un autore l i corpora di domini linguistici settoriali (ad es. il gergo dei controllori del traffico aereo, ecc.) l i corpora di testi che appartengono a generi particolari (ad es. sms, bollettini meteorologici, notiziari stampa, ecc.) la variabilità interna limitata e l’elevata omogeneità linguistica garantiscono la possibilità di ottenere un alto grado di rappresentatività 25 Rappresentatività e tipi di corpora l Corpora generali (Biber 1993) l devono essere diversificati (bilanciati) rispetto a un ampio spettro di tipi testuali l l 200 milioni di parole di uno stesso tipo testuale non costituiscono un corpus di riferimento per una lingua Corpora bilanciati (balanced corpora) l l includono testi che coprono le diverse varietà testuali e linguistiche della popolazione presuppongono la creazione di una “mappa” che fornisca una descrizione accurata della popolazione linguistica di riferimento: l l l confini spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione) tipologia dei testi (l’articolazione in strati della popolazione) “random sampling” di testi appartenenti alle varie categorie individuate nella popolazione l ogni categoria deve essere rappresentata 26 Corpora bilanciati due esempi l PAROLE l stratificazione gerarchica l “medium” di produzione (libri, giornali, periodici, e miscellanea) § § § § l diffusione del testo (nazionali, regionali) dominio tematico (stampa economica e generale, periodici femminili, economici, ecc.) cadenza di pubblicazione (settimanale, mensile) genere (rapporti scientifici, atti amministrativi, ecc.) BNC l standard de facto per i criteri di bilanciamento l lingua scritta § § l dominio (scienze, arte, pensiero, economia e finanza, ecc.) “medium” (libri, giornali, brochures, lettere, ecc.) lingua parlata § § selezione demografica selezione contestualizzata (conferenze, discorsi politici, ecc.) 27 Network of European Reference Corpora (NERC 1995) l Criteri per la progettazione di un corpus di riferimento plurifunzionale: l l l l l l l ampie dimensioni sia testi scritti che testi di parlato trascritto “argomento” come criterio privilegiato di selezione dei testi testi completi documentato in maniera estensiva la sua organizzazione dovrebbe facilitare la creazione di sotto-corpora distribuzione delle proporzioni di testi determinata da considerazioni pragmatiche di disponibilità del materiale testuale in formato digitale 28 COLFIS Corpus e lessico di frequenza dell’italiano scritto l Corpus di 3.800.000 parole dell’italiano scritto bilanciato in modo da essere rappresentativo dell’italiano effettivamente letto dai parlanti l l bilanciamento effettuato sulla base delle statistiche ISTAT delle abitudini di lettura degli italiani Composizione del corpus l l l 50% quotidiani 33,3% periodici l settimanali più rappresentati dei mensili 16,7% libri l argomenti selezionati in maniera da rappresentare le preferenze dei lettori 29 “Any natural corpus will be skewed” (Chomsky 1962) “Impariamo di più sul linguaggio seguendo il metodo standard della scienza, che non consiste nell’accumulare enormi masse di dati non analizzati e nel cercare di estrarre qualche generalizzazione da essi [...] Galileo non sarebbe stato interessato in registrazioni video di foglie che cadono, palle che si muovono e rocce che rotolano giù dalle montagne” Chomsky (2004) l I corpora sono sempre frammenti parziali e incompleti del linguaggio l l la conoscenza umana del linguaggio è intrinsecamente infinita La distribuzione dei tratti linguistici nei corpora è sempre sproporzionata, in quanto condizionata da vincoli d’uso l l possono mancare costruzioni importanti anche se rare altre costruzioni possono essere presenti in eccesso 30 Skewed corpora ...ma con informazioni utili nomi in posizione postverbale con strisciare nomi in posizione postverbale con prendere 31 “Knowing that your corpus is unbalanced is what counts” (Atkins et al. 1992) l l Tecniche statistiche di campionamento possono aumentare il grado di rappresentatività di un corpus, ma… Gran parte delle scelte è condizionata da fattori pragmatici l l l La rappresentatività e la nozione di corpus bilanciato restano concetti limite, valori di riferimento ideali l l l budget, limiti temporali o tecnologici disponibilità di materiale, ecc. definire i limiti di una lingua è spesso estremamente arduo nessun corpus è bilanciato in senso assoluto Regola fondamentale: Conosci il corpus!!! l ruolo cruciale della documentazione che accompagna il corpus per conoscere la composizione interna del corpus e i criteri di campionamento dei testi 32 Un po’ di pragmatismo … Outside very narrow, specialized domains, we do not know with any precision what existing corpora might be representative of. If we wish to develop a corpus of general English, we may think it should be representative of general English, so we then need to define the population of ‘general English language events’ of which the corpus will be a sample. Kilgarriff e Grefenstette (2003) In Statistical NLP, one commonly receives as a corpus a certain amount of data from a certain domain of interest, without having any say in how it is constructed. In such cases, having more training data is normally more useful than any concerns of balance, and one should simply use all the text that is available. Manning e Schütze (1999) 33 “More data is better data” il Web come corpus l Il Web è una collezione di testi dinamica che si auto-espande l l l l l 1999 – stimati 6 terabytes di testo sul Web (Lawrence e Gilles 1999) 2005 – stimate 11,5 miliardi di pagine web indicizzate dai motori di ricerca (Gullì e Signorini 2005) oggi – decine di miliardi di pagine indicizzate (worldwidewebsize.com) valori per difetto, poiché il materiale indicizzato dai motori di ricerca è una piccola percentuale di quello effettivamente on line risorsa multilingue l l la presenza di lingue diverse dall’inglese è in continua crescita Banko & Brill (2001) e Lapata & Keller (2005) dimostrano che usare il Web come risorsa di dati linguistici migliora 34 sistematicamente le prestazioni di strumenti di NLP Il Web come corpus l l Il Web non è un campione rappresentativo (se non di se stesso), ma è indubbiamente una risorsa inesauribile di dati linguistici Il Web come risorsa di materiali testuali per costruire corpora l particolarmente utile per costruire corpora rapidamente e per particolari domini specialistici l l es. attraverso l’uso di Web Crawlers cf. BootCat (Baroni e Bernardini 2003) Wikipedia (ca. 820 milioni di parole nel 2009), Twitter, ecc. sono utilizzati essi stessi come corpora 35 Il Web come corpus l Il Web come fonte di dati linguistici l i motori di ricerca commerciali possono essere usati per ottenere dati quantitativi sull’uso delle espressioni linguistiche l si seleziona una parola come query e si usano gli “hits” (numero di documenti recuperati) per stimare quante volte la parola ricorre § l es. “messaggiare” ricorre 162K volte su Google il Web non è lemmatizzato ed è difficile cercare pattern complessi 36 “Googleology is bad science” (Kilgarriff 2007) l L’uso dei motori di ricerca commerciali (Google, Yahoo!!, ecc.) per raccogliere dati linguistici deve essere fatto con cautela e non è sempre affidabile l i risultati dipendono dalle specifiche caratteristiche dei motori di ricerca l l sono spesso non replicabili l l l l algoritmi di indicizzazione e di recupero delle pagine motori di ricerca differenti danno risultati molto diversi lo stesso motore di ricerca produce numeri differenti a breve distanza di tempo le statistiche non sono affidabili per la presenza di documenti duplicati, “headers”, ecc. i risultati sono in termini di “hits” (pagine web) e non dell’effettiva frequenza dell’espressione linguistica 37 Corpora di ultima generazione web corpora l Web 1T 5-gram (Google Inc.) l l l dimensione: ca. 1 tera (1.000 miliardi) di parole testi inglesi derivati dal Web It-Wac (Baroni & Ueyama 2006) l l l dimensione: ca. 1.3 giga (miliardi) di parole testi italiani scaricati dal Web annotati automaticamente l l lemmatizzati e annotati a livello morfosintattico Ten-Ten Corpora (SketchEngine) l l famiglia di corpora di oltre 1010 parole testi scaricati dal Web e annotati automaticamente 38 Google Books Corpus Michel et al. (2011) l Corpus di ca. 5,2 milioni di libri l l sottoinsieme dei ca. 15 milioni di libri digitalizzati da Google corpus multilingue con testi dal 1500 ai giorni nostri l l risorsa di dati per la “culturomics” l l l più di 361 miliardi di parole inglesi, 45 miliardi francesi, 45 miliardi spagnole, ecc. studio di mutamenti culturali attraverso l’analisi computazionale di corpora testuali “The corpus cannot be read by a human. If you tried to read only Englishlanguage entries from the year 2000 alone, at the reasonable pace of 200 words/min, without interruptions for food or sleep, it would take 80 years. The sequence of letters is 1000 times longer than the human genome: If you wrote it out in a straight line, it would reach to the Moon and back 10 times over” (Michel et al. 2011: 176) consultabile con Google Ngram Viewer: http://books.google.com/ngrams 39 Qualche conclusione l l l I corpora offrono al linguista computazionale l’opportunità di sviluppare modelli e applicazioni sulla base di dati linguistici “ecologici” direttamente estratti dal loro “habitat” naturale, il testo La qualità e la quantità dei materiali raccolti determinano la fisionomia del corpus La valutazione del grado di rappresentatività del corpus deve essere comunque l’orizzonte di riferimento l è sempre necessario valutare in che misura i risultati di un analisi o esperimento possano dipendere dalla scelta e dalla natura dei dati a disposizione 40