Corpora

Transcript

Corpora
Linguistica Computazionale
28 settembre 2016
Dati linguistici
l 
Dati linguistici
l 
i prodotti del linguaggio che sono oggetto di un processo di
analisi (computazionale) e che formano l’evidenza empirica
per lo sviluppo di modelli e teorie linguistiche
l  come funziona il linguaggio, qual è la sua organizzazione,
come viene usato, come viene appreso
Il linguista computazionale:
§  raccoglie dati linguistici
§  usa metodi formali (logici, matematici, statistici, ecc.) e strumenti
informatici per analizzare i dati raccolti e ricostruire
l’organizzazione e struttura del linguaggio
2
Dati linguistici
l 
Le fonti dei dati linguistici
l 
“Intuizioni linguistiche” dei parlanti
l 
es. giudizi di grammaticalità, giudizi semantici, ecc.
§ 
§ 
l 
la frase “L’uomo correva velocemente” è grammaticale?
la parola “cane” è più semanticamente simile a “gatto” oppure a “treno”?
testi prodotti dai parlanti
l 
testo = qualsiasi prodotto dell’attività linguistica dei parlanti
elaborato o trascritto come sequenza di caratteri
dati linguistici “controllati”
intuizioni linguistiche
raccolti in contesti “sperimentali” e in
situazioni “idealizzate”
dati linguistici “ecologici”
testi prodotti dai parlanti
osservazioni “naturali” degli usi
linguistici in contesti e situazioni reali
3
Dati linguistici controllati
l 
Fonte di dati primaria per la linguistica formale
“razionalista” di derivazione chomskiana e per la
psicolinguistica
l 
obiettivo dell’indagine linguistica è ricostruire le conoscenze che i
parlanti hanno della lingua (competenza) indipendentemente dal
modo in cui la usano (esecuzione o performance)
l 
l 
i fenomeni tipici dell’uso linguistico sono considerati “rumore” da
cui è necessario fare astrazione
Fonte di dati primaria per la linguistica computazionale e
Intelligenza Artificiale di Ia generazione
l 
sistemi generalmente in grado di operare in ambienti circoscritti
(toy models)
4
Dati linguistici controllati
l 
Limiti e problemi dei dati controllati
l 
le intuizioni dei parlanti non sono sempre “chiare e distinte”
l 
l 
l 
l 
l 
“la ragazza che ci sono uscito ieri” (???)
“c’è la maggior parte di noi che non leggono abbastanza” (???)
esperimenti “in vitro”
eccessivo grado di idealizzazione e astrazione rispetto all’uso
effettivo del linguaggio
i sistemi computazionali sono scarsamente adattabili e
“robusti”
l 
difficoltà a gestire testi reali che contengono rumore
§ 
l 
errori di digitalizzazione, errori grammaticali, forme linguistiche
substandard, ecc.
(da Twitter)
§ 
§ 
“Ah dimenticavo, ma tutta sta caciara per fare un governo Monti ? Mai na
sorpresa dentro sto paese.”
“sto anche facendo pausa con yogurt...ottimo parlare di ste cose...
Solocosebelle e buone!!!yeeesss ma venite in camper?”
5
Dati linguistici “ecologici”
(Dal lat. corpus, “corpo”, pl. corpora)
Un corpus è una collezione di testi selezionati e organizzati in
maniera tale da soddisfare specifici criteri che li rendono funzionali
per le analisi linguistiche
l 
I corpora rappresentano fonti di dati linguistici “ecologici”,
ovvero raccolti nei loro “habitat naturali”
l 
lingua scritta
l 
l 
libri (saggistica, narrativa, poesia, ecc.), giornali, riviste, pagine
Web, produzioni “effimere” (e-mail, pubblicità, chat, tweet, ecc.
lingua parlata (trascritta)
l 
notiziari radio-televisivi, conversazioni telefoniche, conversazioni
faccia-a-faccia, ecc.
6
La linguistica computazionale
ieri e oggi
1957
Anni ’60-’80
Nasce la
Grammatica
Generativa
Modelli simbolici
(Chomsky)
Logica & Intelligenza Artificiale
Natural Language Understanding
(Minsky, Schank, Winograd, et al.)
Anni ’90-Oggi
Empirical NLP
NLP statistico
Machine Learning
Anni ’50
Metà anni ’60
Anni ’60-’80
Prime applicazioni
del computer ai testi
letterari
I primi corpora
elettronici
Sviluppo della Corpus
Linguistics e della
statistica linguistica
(Padre Busa, Pisa)
(Francis & Kucera)
(Charniak, Church, et al.)
(Leech, Sinclair,
Herdan, et al.)
7
Corpora e linguistica
computazionale
I corpora testuali rappresentano la principale (anche se non
esclusiva) fonte di dati in linguistica computazionale
sviluppo e valutazione di modelli e applicazioni
sviluppo
Corpora
Strumenti e
applicazioni di NLP
valutazione
creazione di corpora annotati
8
Corpora elettronici
l 
l 
L’avvento dell’era informatica ha rivoluzionato la
natura, ruolo e uso dei corpora
Il computer permette di:
l 
l 
l 
immagazzinare quantità di dati testuali prima
inimmaginabili
interrogare in maniera avanzata il contenuto del corpus
compiere nuove forme di elaborazione e computazione sui
dati lingustici
corpus = corpus elettronico
i testi sono in formato digitale (machine-readable)
9
Tipologia ed uso
The rich variety of corpora reflects the diversity of their designers’
objectives
Atkins et al. (1992): 5
l 
Principali usi dei corpora
l 
applicativo
l 
tipico del NLP e dell’ingegneria del linguaggio, per progettare
strumenti:
§ 
§ 
l 
dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi
di un certo dominio o varietà di linguaggio
“robusti” e ben adattati al linguaggio reale
analitico
l 
per fondare analisi e descrizioni linguistiche sull’effettiva
distribuzione delle costruzioni e fenomeni all’interno di un linguaggio,
al fine di valutare ipotesi teoriche sulla sua forma ed organizzazione
10
Tipologia ed uso
Ogni corpus è per sua definizione il risultato di un’opera di selezione
i criteri che guidano questa scelta determinano la natura stessa del corpus
e condizionano lo spettro dei suoi usi possibili
l 
Parametri rilevanti per classificare i corpora
l 
l 
l 
l 
l 
l 
generalità
modalità
cronologia
lingua
integrità dei testi
codifica digitale dei testi
11
Tipi di corpora
generalità
l 
corpus specialistico
l 
orientato alla descrizione di una particolare varietà del linguaggio
(sublanguage) o a un ristretto dominio applicativo
l 
l 
l 
l 
l 
linguaggio giornalistico
linguaggio infantile
linguaggio giuridico, medico, ecc.
linguaggio dei controllori di volo, ecc.
corpus generale o di riferimento (reference corpus)
l 
l 
l 
l 
trasversale rispetto alle diverse varietà di un linguaggio L
plurifunzionale
orientato a rappresentare tutti gli aspetti caratteristici di L,
proponendosi come risorsa di riferimento per la descrizione di L
può essere organizzato in vari sottocorpora specializzati per
varietà di L
12
Tipi di corpora
modalità
l 
corpus di scritto
l 
l 
corpus di parlato
l 
l 
testi scritti e trascrizioni di parlato (in proporzioni variabili)
speech database (corpus audio)
l 
l 
solo trascrizioni di linguaggio parlato
corpus misto
l 
l 
solo testi di linguaggio scritto
campioni di linguaggio parlato in forma di segnale acustico
(più eventualmente la trascrizione ortografica)
corpus multimediale (audio-video)
l 
testi scritti, video, parlato in forma di segnato acustico, ecc.
13
Tipi di corpora
cronologia e lingua
l 
corpus sincronico
l 
l 
corpus diacronico
l 
l 
descrive il mutamento linguistico (i testi appartengono a diverse
finestre temporali)
corpus monolingue
l 
l 
descrive un particolare stadio del linguaggio (i testi appartengono
tutti ad una stessa finestra temporale)
contiene testi di una sola lingua
corpus bi/plurilingue
l 
corpus parallelo – lo stesso testo è rappresentato (in traduzione) in
più di una lingua
l 
l 
corpus allineato – ciascuna frase (parola) della lingua L1 è
esplicitamente collegata col suo traducente nella lingua L2
corpus comparabile – testi in più lingue (non in traduzione)
appartenenti alle stesse tipologie (ciascuna lingua è rappresentata
14
da testi diversi)
Tipi di corpora
integrità e codifica dei testi
l 
Un corpus può contenere testi interi o porzioni di
testi di lunghezza prefissata
l 
Corpora codificati
l 
l 
i testi sono arricchiti con etichette (codici) che ne rendono
esplicite vari tipi di informazione (es. struttura testuale,
composizione, ecc.)
Corpora annotati
l 
le informazioni codificate sul testo riguardano la struttura
linguistica del testo a livelli diversi di rappresentazione (es.
morfologica, sintattica, semantica, ecc.)
15
Dimensione del corpus
l 
Numero di parole (token) contenute nel corpus
l 
l 
numero di ore di registrazione, per corpora di parlato
Regola generale: “The larger, the better!”
Evoluzione della dimensione dei corpora
corpora di prima generazione
anni 60-70
milioni di parole
corpora di seconda generazione
anni 80-90
2000-oggi
decine di milioni di parole
centinaia di milioni di parole
corpora di ultima generazione
oggi - …
miliardi di parole
16
Corpora di prima generazione
Brown Corpus
l 
Il primo corpus computazionale in formato elettronico, iniziato nel
1961
l 
l 
l 
Dimensione
l 
l 
l 
l 
l 
1 milione di parole tratte da materiale pubblicato nel 1961 appartenente
a vari generi
Tratti caratteristici:
l 
l 
Francis e Kucera (Brown University)
corpus standard di American English contemporaneo
generale
sincronico
monolingue
Registrato su 100.000 schede perforate e trasferito su nastri
magnetici nel 1964. Disponibile su CD-ROM
Modello di riferimento per tutti i corpora di prima generazione
17
Corpora di prima generazione
Brown Corpus
18
Corpora di seconda generazione
British National Corpus (BNC)
l 
Corpus del British English (1991-1994)
l 
l 
Dimensione:
l 
l 
creato da un consorzio accademico (Oxford, Lancaster, ecc.) ed editoriale
(Oxford University Press, Longman, ecc.)
100 milioni di parole
Tratti caratteristici
l 
l 
l 
l 
generale
monolingue
sincronico
misto
l 
l 
l 
l 
90% testi scritti di vari generi
10% testi di parlato trascritto (conversazioni spontanee)
codificato e annotato
http://www.natcorp.ox.ac.uk/
19
Corpora di seconda generazione
PAROLE
l 
Corpora multilingue comparabili per 14 lingue europee
l 
l 
l 
catalano, danese, finlandese, francese, francese belga, greco, inglese,
irlandese, italiano, norvegese olandese, portoghese, svedese, tedesco
tutti i corpora sono stati costruiti secondo criteri e specifiche uniformi
PAROLE-Italiano (1996-1998)
l 
l 
realizzato presso l’ILC-CNR (Pisa)
Dimensione:
l 
l 
l 
21 milioni di parole tratte da testi scritti di vari generi (libri, giornali
periodici, miscellanee)
attualmente portate a ca. 100 milioni
Tratti caratteristici
l 
l 
l 
l 
l 
generale
sincronico
(internamente) monolingue
codificato
http://www.ilc.cnr.it/pisystem/demo/demo_dbt/demo_corpus/index.htm
20
Corpora di seconda generazione
PAROLE
21
Corpora di seconda generazione
La Repubblica
l 
Corpus monolingue dell’italiano giornalistico
l 
l 
l 
Dimensione
l 
l 
SSLiMIT Forlì (Baroni et al. 2004)
http://dev.sslmit.unibo.it/corpora/corpus.php?
path=&name=Repubblica
ca. 326 milioni di parole
Tratti caratteristici:
l 
l 
l 
l 
generale come dominio tematico, ma specialistico come tipologia
testuale
scritto
monolingue
annotato
l 
il corpus è lemmatizzato e annotato a livello morfosintattico
22
Corpora di parlato
l 
Map Task Corpus (1992)
l 
University of Edimburgh (HCRC) e University of Glasgow
l 
l 
l 
http://www.hcrc.ed.ac.uk/maptask/maptask-description.html
Archivio di Varietà di Italiano Parlato (AVIP) (2001)
l 
l 
l 
18 h, 128 dialoghi semi-spontanei “task-oriented” (map-task),
trascritti e comprensivi di segnale acustico
3,5 h, 44 dialoghi semi-spontanei “task-oriented” (map-task) (39
prodotti da adulti e 5 da bambini), trascritti
registrazioni effettuate a Pisa, Napoli e Bari
C-ORAL-ROM
l 
l 
corpus audio della lingua parlata spontanea. Il corpus è
comparabile con altri corpora per spagnolo, francese e
portoghese
registrazioni audio per un totale di 300.000 parole, trascritte
23
Corpora paralleli
l 
Canadian Hansard Corpus (2001)
l 
1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte
dagli atti del Parlamento Canadese
24
Corpora paralleli
l 
European Parliament Proceedings Parallel Corpus (1996-2011)
l 
l 
estratti dagli atti del Parlamento Europeo
include versioni allineate a livello di frase in 21 lingue europee (l’inglese
è la lingua pivot)
l 
l 
l 
l 
francese, italiano, spagnolo, portoghese, inglese, olandese, tedesco,
danese, svedese, greco, finlandese, etc.
la sezione italiana contiene ca. 52 milioni di parole
finalizzato alla traduzione automatica statistica
http://www.statmt.org/europarl/index.html
25
Corpora paralleli
Europarl Corpus
<SPEAKER ID=2 LANGUAGE=”IT"
NAME="Evans, Robert J">
<SPEAKER ID=2 NAME="Evans,
Robert J">
Signora Presidente, intervengo per
una mozione d'ordine.
Madam President, on a point of
order.
Come avrà letto sui giornali o sentito
alla televisione, in Sri Lanka si sono
verificati numerosi assassinii ed
esplosioni di ordigni.
You will be aware from the press
and television that there have been
a number of bomb explosions and
killings in Sri Lanka.
26
Corpora specialistici
l 
Switchboard Corpus (1992)
l 
l 
l 
2.400 conversazioni telefoniche registrate in varie regioni degli
USA e trascritte (ca. 3 milioni di parole)
applicazioni: Automatic Speech Recognition (ASR), Speaker
Identification, ecc.
Child Language Data Exchange (CHILDES) (B. MacWhinney)
l 
l 
l 
database di interazioni conversazionali di bambini in fase di
apprendimento linguistico o di soggetti con patologie del
linguaggio
finalità: studio dell’apprendimento linguistico
“meta-corpus”:
l 
l 
l 
sistema per la raccolta, trascrizione e trattamento di di dati
linguistici
collezione di dati aperta
http://childes.psy.cmu.edu/
27
Corpora multimodali
l 
Human Speechome Project (Deb Roy, MIT Media Lab)
l 
l 
10 ore al giorno di registrazione continua audio-video di un
bambino dalla nascita a 3 anni nella sua abitazione
ca. 90K ore di video e 140K ore di audio registrazioni,
parzialmente trascritte in modo automatico
l 
“To study a corpus of this scale and richness, current methods of
developmental cognitive science are inadequate” (Roy 2009)
28
I corpora oggi
l 
l 
l 
l 
l 
l 
I corpora generali più recenti ospitano spesso proporzioni variabili di
parlato trascritto
Esiste un numero crescente di corpora audio e corpora multilingui
(soprattutto paralleli allineati), e specialistici
Il numero di lingue per le quali esistono corpora di varie tipologie è
in continuo aumento
Si preferisce includere in un corpus testi interi per garantire la
massima naturalezza dei dati linguistici estraibili
I testi sono riccamente codificati e sempre più estensivamente
annotati
Strumenti informatici sofisticati (basi di dati, interfacce di ricerca,
ecc.) potenziano la fruibilità dei dati linguistici nei corpora
29
Collezioni di corpora
Corpora di grandi dimensioni e di varie tipologie esistono
per un numero crescente di lingue
l 
Agenzie per la distribuzione di corpora
l 
l 
l 
Language Data Consortium (LDC)
l  http://www.ldc.upenn.edu/
European Language Resources Association (ELRA)
l  http://www.elra.info/
Consultazione on-line di corpora (a pagamento)
l 
Sketchengine (http://www.sketchengine.co.uk)
30