Corpora
Transcript
Corpora
Linguistica Computazionale 28 settembre 2016 Dati linguistici l Dati linguistici l i prodotti del linguaggio che sono oggetto di un processo di analisi (computazionale) e che formano l’evidenza empirica per lo sviluppo di modelli e teorie linguistiche l come funziona il linguaggio, qual è la sua organizzazione, come viene usato, come viene appreso Il linguista computazionale: § raccoglie dati linguistici § usa metodi formali (logici, matematici, statistici, ecc.) e strumenti informatici per analizzare i dati raccolti e ricostruire l’organizzazione e struttura del linguaggio 2 Dati linguistici l Le fonti dei dati linguistici l “Intuizioni linguistiche” dei parlanti l es. giudizi di grammaticalità, giudizi semantici, ecc. § § l la frase “L’uomo correva velocemente” è grammaticale? la parola “cane” è più semanticamente simile a “gatto” oppure a “treno”? testi prodotti dai parlanti l testo = qualsiasi prodotto dell’attività linguistica dei parlanti elaborato o trascritto come sequenza di caratteri dati linguistici “controllati” intuizioni linguistiche raccolti in contesti “sperimentali” e in situazioni “idealizzate” dati linguistici “ecologici” testi prodotti dai parlanti osservazioni “naturali” degli usi linguistici in contesti e situazioni reali 3 Dati linguistici controllati l Fonte di dati primaria per la linguistica formale “razionalista” di derivazione chomskiana e per la psicolinguistica l obiettivo dell’indagine linguistica è ricostruire le conoscenze che i parlanti hanno della lingua (competenza) indipendentemente dal modo in cui la usano (esecuzione o performance) l l i fenomeni tipici dell’uso linguistico sono considerati “rumore” da cui è necessario fare astrazione Fonte di dati primaria per la linguistica computazionale e Intelligenza Artificiale di Ia generazione l sistemi generalmente in grado di operare in ambienti circoscritti (toy models) 4 Dati linguistici controllati l Limiti e problemi dei dati controllati l le intuizioni dei parlanti non sono sempre “chiare e distinte” l l l l l “la ragazza che ci sono uscito ieri” (???) “c’è la maggior parte di noi che non leggono abbastanza” (???) esperimenti “in vitro” eccessivo grado di idealizzazione e astrazione rispetto all’uso effettivo del linguaggio i sistemi computazionali sono scarsamente adattabili e “robusti” l difficoltà a gestire testi reali che contengono rumore § l errori di digitalizzazione, errori grammaticali, forme linguistiche substandard, ecc. (da Twitter) § § “Ah dimenticavo, ma tutta sta caciara per fare un governo Monti ? Mai na sorpresa dentro sto paese.” “sto anche facendo pausa con yogurt...ottimo parlare di ste cose... Solocosebelle e buone!!!yeeesss ma venite in camper?” 5 Dati linguistici “ecologici” (Dal lat. corpus, “corpo”, pl. corpora) Un corpus è una collezione di testi selezionati e organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali per le analisi linguistiche l I corpora rappresentano fonti di dati linguistici “ecologici”, ovvero raccolti nei loro “habitat naturali” l lingua scritta l l libri (saggistica, narrativa, poesia, ecc.), giornali, riviste, pagine Web, produzioni “effimere” (e-mail, pubblicità, chat, tweet, ecc. lingua parlata (trascritta) l notiziari radio-televisivi, conversazioni telefoniche, conversazioni faccia-a-faccia, ecc. 6 La linguistica computazionale ieri e oggi 1957 Anni ’60-’80 Nasce la Grammatica Generativa Modelli simbolici (Chomsky) Logica & Intelligenza Artificiale Natural Language Understanding (Minsky, Schank, Winograd, et al.) Anni ’90-Oggi Empirical NLP NLP statistico Machine Learning Anni ’50 Metà anni ’60 Anni ’60-’80 Prime applicazioni del computer ai testi letterari I primi corpora elettronici Sviluppo della Corpus Linguistics e della statistica linguistica (Padre Busa, Pisa) (Francis & Kucera) (Charniak, Church, et al.) (Leech, Sinclair, Herdan, et al.) 7 Corpora e linguistica computazionale I corpora testuali rappresentano la principale (anche se non esclusiva) fonte di dati in linguistica computazionale sviluppo e valutazione di modelli e applicazioni sviluppo Corpora Strumenti e applicazioni di NLP valutazione creazione di corpora annotati 8 Corpora elettronici l l L’avvento dell’era informatica ha rivoluzionato la natura, ruolo e uso dei corpora Il computer permette di: l l l immagazzinare quantità di dati testuali prima inimmaginabili interrogare in maniera avanzata il contenuto del corpus compiere nuove forme di elaborazione e computazione sui dati lingustici corpus = corpus elettronico i testi sono in formato digitale (machine-readable) 9 Tipologia ed uso The rich variety of corpora reflects the diversity of their designers’ objectives Atkins et al. (1992): 5 l Principali usi dei corpora l applicativo l tipico del NLP e dell’ingegneria del linguaggio, per progettare strumenti: § § l dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi di un certo dominio o varietà di linguaggio “robusti” e ben adattati al linguaggio reale analitico l per fondare analisi e descrizioni linguistiche sull’effettiva distribuzione delle costruzioni e fenomeni all’interno di un linguaggio, al fine di valutare ipotesi teoriche sulla sua forma ed organizzazione 10 Tipologia ed uso Ogni corpus è per sua definizione il risultato di un’opera di selezione i criteri che guidano questa scelta determinano la natura stessa del corpus e condizionano lo spettro dei suoi usi possibili l Parametri rilevanti per classificare i corpora l l l l l l generalità modalità cronologia lingua integrità dei testi codifica digitale dei testi 11 Tipi di corpora generalità l corpus specialistico l orientato alla descrizione di una particolare varietà del linguaggio (sublanguage) o a un ristretto dominio applicativo l l l l l linguaggio giornalistico linguaggio infantile linguaggio giuridico, medico, ecc. linguaggio dei controllori di volo, ecc. corpus generale o di riferimento (reference corpus) l l l l trasversale rispetto alle diverse varietà di un linguaggio L plurifunzionale orientato a rappresentare tutti gli aspetti caratteristici di L, proponendosi come risorsa di riferimento per la descrizione di L può essere organizzato in vari sottocorpora specializzati per varietà di L 12 Tipi di corpora modalità l corpus di scritto l l corpus di parlato l l testi scritti e trascrizioni di parlato (in proporzioni variabili) speech database (corpus audio) l l solo trascrizioni di linguaggio parlato corpus misto l l solo testi di linguaggio scritto campioni di linguaggio parlato in forma di segnale acustico (più eventualmente la trascrizione ortografica) corpus multimediale (audio-video) l testi scritti, video, parlato in forma di segnato acustico, ecc. 13 Tipi di corpora cronologia e lingua l corpus sincronico l l corpus diacronico l l descrive il mutamento linguistico (i testi appartengono a diverse finestre temporali) corpus monolingue l l descrive un particolare stadio del linguaggio (i testi appartengono tutti ad una stessa finestra temporale) contiene testi di una sola lingua corpus bi/plurilingue l corpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una lingua l l corpus allineato – ciascuna frase (parola) della lingua L1 è esplicitamente collegata col suo traducente nella lingua L2 corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle stesse tipologie (ciascuna lingua è rappresentata 14 da testi diversi) Tipi di corpora integrità e codifica dei testi l Un corpus può contenere testi interi o porzioni di testi di lunghezza prefissata l Corpora codificati l l i testi sono arricchiti con etichette (codici) che ne rendono esplicite vari tipi di informazione (es. struttura testuale, composizione, ecc.) Corpora annotati l le informazioni codificate sul testo riguardano la struttura linguistica del testo a livelli diversi di rappresentazione (es. morfologica, sintattica, semantica, ecc.) 15 Dimensione del corpus l Numero di parole (token) contenute nel corpus l l numero di ore di registrazione, per corpora di parlato Regola generale: “The larger, the better!” Evoluzione della dimensione dei corpora corpora di prima generazione anni 60-70 milioni di parole corpora di seconda generazione anni 80-90 2000-oggi decine di milioni di parole centinaia di milioni di parole corpora di ultima generazione oggi - … miliardi di parole 16 Corpora di prima generazione Brown Corpus l Il primo corpus computazionale in formato elettronico, iniziato nel 1961 l l l Dimensione l l l l l 1 milione di parole tratte da materiale pubblicato nel 1961 appartenente a vari generi Tratti caratteristici: l l Francis e Kucera (Brown University) corpus standard di American English contemporaneo generale sincronico monolingue Registrato su 100.000 schede perforate e trasferito su nastri magnetici nel 1964. Disponibile su CD-ROM Modello di riferimento per tutti i corpora di prima generazione 17 Corpora di prima generazione Brown Corpus 18 Corpora di seconda generazione British National Corpus (BNC) l Corpus del British English (1991-1994) l l Dimensione: l l creato da un consorzio accademico (Oxford, Lancaster, ecc.) ed editoriale (Oxford University Press, Longman, ecc.) 100 milioni di parole Tratti caratteristici l l l l generale monolingue sincronico misto l l l l 90% testi scritti di vari generi 10% testi di parlato trascritto (conversazioni spontanee) codificato e annotato http://www.natcorp.ox.ac.uk/ 19 Corpora di seconda generazione PAROLE l Corpora multilingue comparabili per 14 lingue europee l l l catalano, danese, finlandese, francese, francese belga, greco, inglese, irlandese, italiano, norvegese olandese, portoghese, svedese, tedesco tutti i corpora sono stati costruiti secondo criteri e specifiche uniformi PAROLE-Italiano (1996-1998) l l realizzato presso l’ILC-CNR (Pisa) Dimensione: l l l 21 milioni di parole tratte da testi scritti di vari generi (libri, giornali periodici, miscellanee) attualmente portate a ca. 100 milioni Tratti caratteristici l l l l l generale sincronico (internamente) monolingue codificato http://www.ilc.cnr.it/pisystem/demo/demo_dbt/demo_corpus/index.htm 20 Corpora di seconda generazione PAROLE 21 Corpora di seconda generazione La Repubblica l Corpus monolingue dell’italiano giornalistico l l l Dimensione l l SSLiMIT Forlì (Baroni et al. 2004) http://dev.sslmit.unibo.it/corpora/corpus.php? path=&name=Repubblica ca. 326 milioni di parole Tratti caratteristici: l l l l generale come dominio tematico, ma specialistico come tipologia testuale scritto monolingue annotato l il corpus è lemmatizzato e annotato a livello morfosintattico 22 Corpora di parlato l Map Task Corpus (1992) l University of Edimburgh (HCRC) e University of Glasgow l l l http://www.hcrc.ed.ac.uk/maptask/maptask-description.html Archivio di Varietà di Italiano Parlato (AVIP) (2001) l l l 18 h, 128 dialoghi semi-spontanei “task-oriented” (map-task), trascritti e comprensivi di segnale acustico 3,5 h, 44 dialoghi semi-spontanei “task-oriented” (map-task) (39 prodotti da adulti e 5 da bambini), trascritti registrazioni effettuate a Pisa, Napoli e Bari C-ORAL-ROM l l corpus audio della lingua parlata spontanea. Il corpus è comparabile con altri corpora per spagnolo, francese e portoghese registrazioni audio per un totale di 300.000 parole, trascritte 23 Corpora paralleli l Canadian Hansard Corpus (2001) l 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese 24 Corpora paralleli l European Parliament Proceedings Parallel Corpus (1996-2011) l l estratti dagli atti del Parlamento Europeo include versioni allineate a livello di frase in 21 lingue europee (l’inglese è la lingua pivot) l l l l francese, italiano, spagnolo, portoghese, inglese, olandese, tedesco, danese, svedese, greco, finlandese, etc. la sezione italiana contiene ca. 52 milioni di parole finalizzato alla traduzione automatica statistica http://www.statmt.org/europarl/index.html 25 Corpora paralleli Europarl Corpus <SPEAKER ID=2 LANGUAGE=”IT" NAME="Evans, Robert J"> <SPEAKER ID=2 NAME="Evans, Robert J"> Signora Presidente, intervengo per una mozione d'ordine. Madam President, on a point of order. Come avrà letto sui giornali o sentito alla televisione, in Sri Lanka si sono verificati numerosi assassinii ed esplosioni di ordigni. You will be aware from the press and television that there have been a number of bomb explosions and killings in Sri Lanka. 26 Corpora specialistici l Switchboard Corpus (1992) l l l 2.400 conversazioni telefoniche registrate in varie regioni degli USA e trascritte (ca. 3 milioni di parole) applicazioni: Automatic Speech Recognition (ASR), Speaker Identification, ecc. Child Language Data Exchange (CHILDES) (B. MacWhinney) l l l database di interazioni conversazionali di bambini in fase di apprendimento linguistico o di soggetti con patologie del linguaggio finalità: studio dell’apprendimento linguistico “meta-corpus”: l l l sistema per la raccolta, trascrizione e trattamento di di dati linguistici collezione di dati aperta http://childes.psy.cmu.edu/ 27 Corpora multimodali l Human Speechome Project (Deb Roy, MIT Media Lab) l l 10 ore al giorno di registrazione continua audio-video di un bambino dalla nascita a 3 anni nella sua abitazione ca. 90K ore di video e 140K ore di audio registrazioni, parzialmente trascritte in modo automatico l “To study a corpus of this scale and richness, current methods of developmental cognitive science are inadequate” (Roy 2009) 28 I corpora oggi l l l l l l I corpora generali più recenti ospitano spesso proporzioni variabili di parlato trascritto Esiste un numero crescente di corpora audio e corpora multilingui (soprattutto paralleli allineati), e specialistici Il numero di lingue per le quali esistono corpora di varie tipologie è in continuo aumento Si preferisce includere in un corpus testi interi per garantire la massima naturalezza dei dati linguistici estraibili I testi sono riccamente codificati e sempre più estensivamente annotati Strumenti informatici sofisticati (basi di dati, interfacce di ricerca, ecc.) potenziano la fruibilità dei dati linguistici nei corpora 29 Collezioni di corpora Corpora di grandi dimensioni e di varie tipologie esistono per un numero crescente di lingue l Agenzie per la distribuzione di corpora l l l Language Data Consortium (LDC) l http://www.ldc.upenn.edu/ European Language Resources Association (ELRA) l http://www.elra.info/ Consultazione on-line di corpora (a pagamento) l Sketchengine (http://www.sketchengine.co.uk) 30