Corpora e rappresentatività

Transcript

Corpora e rappresentatività
Linguistica Computazionale
Corpora
definizione e tipologia
29 settembre 2014
Corpora di prima generazione
Brown Corpus
l 
Il primo corpus computazionale in formato elettronico, iniziato nel
1961
l 
l 
l 
Dimensione
l 
l 
l 
l 
l 
1 milione di parole tratte da materiale pubblicato nel 1961 appartenente
a vari generi
Tratti caratteristici:
l 
l 
Francis e Kucera (Brown University)
corpus standard di American English contemporaneo
generale
sincronico
monolingue
Registrato su 100.000 schede perforate e trasferito su nastri
magnetici nel 1964. Disponibile su CD-ROM
Modello di riferimento per tutti i corpora di prima generazione
2
Corpora di prima generazione
Brown Corpus
3
Corpora di prima generazione
Lancaster-Oslo/Bergen (LOB) Corpus
l 
Costruito con gli stessi criteri del Brown Corpus, completato
nel 1978
l 
l 
Controparte del Brown per il British English
l 
l 
consente una diretta comparazione tra le due varianti di inglese
Dimensione
l 
l 
Leech e Garside (Lancaster), Johansonn (Oslo)
1 milione di parole tratte da materiale pubblicato nel 1961
appartenente a vari generi linguistici
Tratti caratteristici:
l 
l 
l 
generale
sincronico
monolingue
4
Corpora di prima generazione
Lancaster-Oslo/Bergen (LOB) Corpus
5
Corpora di seconda generazione
British National Corpus (BNC)
l 
Corpus del British English (1991-1994)
l 
l 
Dimensione:
l 
l 
creato da un consorzio accademico (Oxford, Lancaster, ecc.) ed editoriale
(Oxford University Press, Longman, ecc.)
100 milioni di parole
Tratti caratteristici
l 
l 
l 
l 
generale
monolingue
sincronico
misto
l 
l 
l 
l 
90% testi scritti di vari generi
10% testi di parlato trascritto (conversazioni spontanee)
codificato e annotato
http://www.natcorp.ox.ac.uk/
6
Corpora di seconda generazione
PAROLE
l 
Corpora multilingue comparabili per 14 lingue europee
l 
l 
l 
catalano, danese, finlandese, francese, francese belga, greco, inglese,
irlandese, italiano, norvegese olandese, portoghese, svedese, tedesco
tutti i corpora sono stati costruiti secondo criteri e specifiche uniformi
PAROLE-Italiano (1996-1998)
l 
l 
realizzato presso l’ILC-CNR (Pisa)
Dimensione:
l 
l 
l 
21 milioni di parole tratte da testi scritti di vari generi (libri, giornali
periodici, miscellanee)
attualmente portate a ca. 100 milioni
Tratti caratteristici
l 
l 
l 
l 
l 
generale
sincronico
(internamente) monolingue
codificato
http://www.ilc.cnr.it/pisystem/demo/demo_dbt/demo_corpus/index.htm
7
Corpora di seconda generazione
PAROLE
8
Corpora di seconda generazione
La Repubblica
l 
Corpus monolingue dell’italiano giornalistico
l 
l 
l 
Dimensione
l 
l 
SSLiMIT Forlì (Baroni et al. 2004)
http://dev.sslmit.unibo.it/corpora/corpus.php?
path=&name=Repubblica
ca. 326 milioni di parole
Tratti caratteristici:
l 
l 
l 
l 
generale come dominio tematico, ma specialistico come tipologia
testuale
scritto
monolingue
annotato
l 
il corpus è lemmatizzato e annotato a livello morfosintattico
9
Corpora di parlato
l 
Map Task Corpus (1992)
l 
University of Edimburgh (HCRC) e University of Glasgow
l 
l 
l 
http://www.hcrc.ed.ac.uk/maptask/maptask-description.html
Archivio di Varietà di Italiano Parlato (AVIP) (2001)
l 
l 
l 
18 h, 128 dialoghi semi-spontanei “task-oriented” (map-task),
trascritti e comprensivi di segnale acustico
3,5 h, 44 dialoghi semi-spontanei “task-oriented” (map-task) (39
prodotti da adulti e 5 da bambini), trascritti
registrazioni effettuate a Pisa, Napoli e Bari
C-ORAL-ROM
l 
l 
corpus audio della lingua parlata spontanea. Il corpus è
comparabile con altri corpora per spagnolo, francese e
portoghese
registrazioni audio per un totale di 300.000 parole, trascritte
10
Corpora paralleli
l 
Canadian Hansard Corpus (2001)
l 
1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte
dagli atti del Parlamento Canadese
11
Corpora paralleli
l 
European Parliament Proceedings Parallel Corpus (1996-2011)
l 
l 
estratti dagli atti del Parlamento Europeo
include versioni allineate a livello di frase in 21 lingue europee (l’inglese
è la lingua pivot)
l 
l 
l 
l 
francese, italiano, spagnolo, portoghese, inglese, olandese, tedesco,
danese, svedese, greco, finlandese, etc.
la sezione italiana contiene ca. 52 milioni di parole
finalizzato alla traduzione automatica statistica
http://www.statmt.org/europarl/index.html
12
Corpora paralleli
Europarl Corpus
<SPEAKER ID=2 LANGUAGE=”IT"
NAME="Evans, Robert J">
<SPEAKER ID=2 NAME="Evans,
Robert J">
Signora Presidente, intervengo per
una mozione d'ordine.
Madam President, on a point of
order.
Come avrà letto sui giornali o sentito
alla televisione, in Sri Lanka si sono
verificati numerosi assassinii ed
esplosioni di ordigni.
You will be aware from the press
and television that there have been
a number of bomb explosions and
killings in Sri Lanka.
13
Corpora specialistici
l 
Switchboard Corpus (1992)
l 
l 
l 
2.400 conversazioni telefoniche registrate in varie regioni degli
USA e trascritte (ca. 3 milioni di parole)
applicazioni: Automatic Speech Recognition (ASR), Speaker
Identification, ecc.
Child Language Data Exchange (CHILDES) (B. MacWhinney)
l 
l 
l 
database di interazioni conversazionali di bambini in fase di
apprendimento linguistico o di soggetti con patologie del
linguaggio
finalità: studio dell’apprendimento linguistico
“meta-corpus”:
l 
l 
l 
sistema per la raccolta, trascrizione e trattamento di di dati
linguistici
collezione di dati aperta
http://childes.psy.cmu.edu/
14
Corpora multimodali
l 
Human Speechome Project (Deb Roy, MIT Media Lab)
l 
l 
10 ore al giorno di registrazione continua audio-video di un
bambino dalla nascita a 3 anni nella sua abitazione
ca. 90K ore di video e 140K ore di audio registrazioni,
parzialmente trascritte in modo automatico
l 
“To study a corpus of this scale and richness, current methods of
developmental cognitive science are inadequate” (Roy 2009)
15
I corpora oggi
l 
l 
l 
l 
l 
l 
I corpora generali più recenti ospitano spesso proporzioni variabili di
parlato trascritto
Esiste un numero crescente di corpora audio e corpora multilingui
(soprattutto paralleli allineati), e specialistici
Il numero di lingue per le quali esistono corpora di varie tipologie è
in continuo aumento
Si preferisce includere in un corpus testi interi per garantire la
massima naturalezza dei dati linguistici estraibili
I testi sono riccamente codificati e sempre più estensivamente
annotati
Strumenti informatici sofisticati (basi di dati, interfacce di ricerca,
ecc.) potenziano la fruibilità dei dati linguistici nei corpora
16
Risorse di corpora
Corpora di grandi dimensioni e di varie tipologie esistono
per un numero crescente di lingue
l 
Agenzie per la distribuzione di corpora
l 
l 
l 
Language Data Consortium (LDC)
l  http://www.ldc.upenn.edu/
European Language Resources Association (ELRA)
l  http://www.elra.info/
Consultazione on-line di corpora (a pagamento)
l 
Sketchengine (http://www.sketchengine.co.uk)
17
Linguistica Computazionale
Corpora
il corpus come campione
29 settembre 2014
Il corpus come campione
l 
Il linguaggio è un sistema potenzialmente illimitato
l 
l 
è possibile comprendere e generare un numero potenzialmente
infinito di frasi
in termini statistici:
l 
l 
le frasi di un linguaggio formano una popolazione infinita
Un corpus è una porzione finita di un linguaggio dalla quale
cerchiamo di ricostruire le proprietà dell’intero sistema
l 
in termini statistici il corpus è un campione di un linguaggio
corpus1
corpus2
linguaggio
corpus2
19
Il corpus come campione
Un corpus è una raccolta di testi selezionati e
organizzati secondo espliciti criteri, allo scopo di
essere usata come campione rappresentativo del
linguaggio o di una sua particolare varietà
(McEnery & Wilson 2001, Corpus Linguistics)
l 
Concetti chiave:
l 
l 
l 
selezione
campione
rappresentatività
20
Campione e popolazione
l 
Popolazione
l 
l’insieme di tutte le entità, con particolari
caratteristiche, che sono oggetto di indagine
l 
l 
es. gli studenti dell’Università di Pisa
Campione
l 
sottoinsieme della popolazione
l 
es. A = {studenti maschi di Lettere con meno di 20 anni}
§ 
l 
Problema: il campione A non è rappresentativo della popolazione!!
es. B = {studenti maschi e femmine di varie fasce di età di
Lettere, Lingue, Scienze, Giurisprudenza, Medicina, ecc}
§ 
il campione è maggiormente rappresentativo della popolazione
studentesca
21
Il corpus come campione
l 
Popolazione linguistica
l 
l 
insieme di tutti i testi che appartengono ad un linguaggio L
o a una sua varietà, oggetto di studio
l  es. il linguaggio sportivo, l’italiano, ecc.
Corpus
l 
l 
un campione (rappresentativo) del linguaggio
la rappresentatività del campione permette di generalizzare
(induttivamente) le proprietà linguistiche del corpus (es.
distribuzione dei termini lessicali, tipologia di strutture
sintattiche, ecc.) all’intera popolazione
22
Corpus e rappresentatività
l 
Un corpus è un campione rappresentativo di
una data popolazione linguistica se e solo se:
l 
l 
fornisce un modello delle proprietà linguistiche
della popolazione, ovvero
è in grado di restituire un quadro il più accurato
possibile delle varietà e tendenze linguistiche
della popolazione, rispettandone le proporzioni
23
Corpus e rappresentatività
A corpus seeks to represent a language or some part of a language. The
appropriate design for a corpus therefore depends upon what is meant to
represent. Representativeness of the corpus, in turn, determines the kind
of research questions that can be addressed and the generalizability of
the results of the research.
Biber (1998): 246
l 
l 
Per essere rappresentativo di una lingua o varietà
un corpus deve tenere traccia dell’intero ambito di
variabilità dei suoi tratti e proprietà
Corpus linguistics
l 
tenta di definire criteri scientifici per la selezione di
campioni di testi rappresentativi
24
Rappresentatività e tipi di
corpora
La complessità dell’operazione di selezione dipende dalla generalità
della lingua che il corpus deve rappresentare
l 
Corpora specialistici
l 
l 
varietà ristrette di lingua
l  i corpora per lo studio della lingua di un autore
l  i corpora di domini linguistici settoriali (ad es. il gergo dei
controllori del traffico aereo, ecc.)
l  i corpora di testi che appartengono a generi particolari (ad
es. sms, bollettini meteorologici, notiziari stampa, ecc.)
la variabilità interna limitata e l’elevata omogeneità
linguistica garantiscono la possibilità di ottenere un alto
grado di rappresentatività
25
Rappresentatività e tipi di
corpora
l 
Corpora generali (Biber 1993)
l 
devono essere diversificati (bilanciati) rispetto a un ampio spettro
di tipi testuali
l 
l 
200 milioni di parole di uno stesso tipo testuale non costituiscono
un corpus di riferimento per una lingua
Corpora bilanciati (balanced corpora)
l 
l 
includono testi che coprono le diverse varietà testuali e
linguistiche della popolazione
presuppongono la creazione di una “mappa” che fornisca una
descrizione accurata della popolazione linguistica di riferimento:
l 
l 
l 
confini spaziali e temporali (quali testi sono inclusi o esclusi dalla
popolazione)
tipologia dei testi (l’articolazione in strati della popolazione)
“random sampling” di testi appartenenti alle varie categorie
individuate nella popolazione
l 
ogni categoria deve essere rappresentata
26
Corpora bilanciati
due esempi
l 
PAROLE
l 
stratificazione gerarchica
l 
“medium” di produzione (libri, giornali, periodici, e miscellanea)
§ 
§ 
§ 
§ 
l 
diffusione del testo (nazionali, regionali)
dominio tematico (stampa economica e generale, periodici femminili,
economici, ecc.)
cadenza di pubblicazione (settimanale, mensile)
genere (rapporti scientifici, atti amministrativi, ecc.)
BNC
l 
standard de facto per i criteri di bilanciamento
l 
lingua scritta
§ 
§ 
l 
dominio (scienze, arte, pensiero, economia e finanza, ecc.)
“medium” (libri, giornali, brochures, lettere, ecc.)
lingua parlata
§ 
§ 
selezione demografica
selezione contestualizzata (conferenze, discorsi politici, ecc.)
27
Network of European Reference
Corpora (NERC 1995)
l 
Criteri per la progettazione di un corpus di riferimento
plurifunzionale:
l 
l 
l 
l 
l 
l 
l 
ampie dimensioni
sia testi scritti che testi di parlato trascritto
“argomento” come criterio privilegiato di selezione dei testi
testi completi
documentato in maniera estensiva
la sua organizzazione dovrebbe facilitare la creazione di
sotto-corpora
distribuzione delle proporzioni di testi determinata da
considerazioni pragmatiche di disponibilità del materiale
testuale in formato digitale
28
COLFIS
Corpus e lessico di frequenza dell’italiano scritto
l 
Corpus di 3.800.000 parole dell’italiano scritto
bilanciato in modo da essere rappresentativo
dell’italiano effettivamente letto dai parlanti
l 
l 
bilanciamento effettuato sulla base delle statistiche ISTAT
delle abitudini di lettura degli italiani
Composizione del corpus
l 
l 
l 
50% quotidiani
33,3% periodici
l  settimanali più rappresentati dei mensili
16,7% libri
l  argomenti selezionati in maniera da rappresentare le
preferenze dei lettori
29
“Any natural corpus will be skewed”
(Chomsky 1962)
“Impariamo di più sul linguaggio seguendo il metodo standard della scienza,
che non consiste nell’accumulare enormi masse di dati non analizzati e nel
cercare di estrarre qualche generalizzazione da essi [...] Galileo non sarebbe
stato interessato in registrazioni video di foglie che cadono, palle che si
muovono e rocce che rotolano giù dalle montagne”
Chomsky (2004)
l 
I corpora sono sempre frammenti parziali e incompleti del
linguaggio
l 
l 
la conoscenza umana del linguaggio è intrinsecamente infinita
La distribuzione dei tratti linguistici nei corpora è sempre
sproporzionata, in quanto condizionata da vincoli d’uso
l 
l 
possono mancare costruzioni importanti anche se rare
altre costruzioni possono essere presenti in eccesso
30
Skewed corpora
...ma con informazioni utili
nomi in
posizione
postverbale con
strisciare
nomi in
posizione
postverbale con
prendere
31
“Knowing that your corpus is
unbalanced is what counts”
(Atkins et al. 1992)
l 
l 
Tecniche statistiche di campionamento possono aumentare il
grado di rappresentatività di un corpus, ma…
Gran parte delle scelte è condizionata da fattori pragmatici
l 
l 
l 
La rappresentatività e la nozione di corpus bilanciato restano
concetti limite, valori di riferimento ideali
l 
l 
l 
budget, limiti temporali o tecnologici
disponibilità di materiale, ecc.
definire i limiti di una lingua è spesso estremamente arduo
nessun corpus è bilanciato in senso assoluto
Regola fondamentale: Conosci il corpus!!!
l 
ruolo cruciale della documentazione che accompagna il corpus
per conoscere la composizione interna del corpus e i criteri di
campionamento dei testi
32
Un po’ di pragmatismo …
Outside very narrow, specialized domains, we do not know with any
precision what existing corpora might be representative of. If we wish to
develop a corpus of general English, we may think it should be
representative of general English, so we then need to define the
population of ‘general English language events’ of which the corpus will
be a sample.
Kilgarriff e Grefenstette (2003)
In Statistical NLP, one commonly receives as a corpus a certain
amount of data from a certain domain of interest, without having any
say in how it is constructed. In such cases, having more training
data is normally more useful than any concerns of balance, and one
should simply use all the text that is available.
Manning e Schütze (1999)
33
“More data is better data”
il Web come corpus
l 
Il Web è una collezione di testi dinamica che si auto-espande
l 
l 
l 
l 
l 
1999 – stimati 6 terabytes di testo sul Web (Lawrence e Gilles
1999)
2005 – stimate 11,5 miliardi di pagine web indicizzate dai motori di
ricerca (Gullì e Signorini 2005)
oggi – decine di miliardi di pagine indicizzate
(worldwidewebsize.com)
valori per difetto, poiché il materiale indicizzato dai motori di ricerca
è una piccola percentuale di quello effettivamente on line
risorsa multilingue
l 
l 
la presenza di lingue diverse dall’inglese è in continua crescita
Banko & Brill (2001) e Lapata & Keller (2005) dimostrano
che usare il Web come risorsa di dati linguistici migliora
34
sistematicamente le prestazioni di strumenti di NLP
Il Web come corpus
l 
l 
Il Web non è un campione rappresentativo (se non di
se stesso), ma è indubbiamente una risorsa
inesauribile di dati linguistici
Il Web come risorsa di materiali testuali per costruire
corpora
l 
particolarmente utile per costruire corpora rapidamente
e per particolari domini specialistici
l 
l 
es. attraverso l’uso di Web Crawlers cf. BootCat (Baroni e
Bernardini 2003)
Wikipedia (ca. 820 milioni di parole nel 2009), Twitter, ecc.
sono utilizzati essi stessi come corpora
35
Il Web come corpus
l 
Il Web come fonte di dati linguistici
l 
i motori di ricerca commerciali possono essere usati per ottenere dati quantitativi
sull’uso delle espressioni linguistiche
l 
si seleziona una parola come query e si usano gli “hits” (numero di documenti
recuperati) per stimare quante volte la parola ricorre
§ 
l 
es. “messaggiare” ricorre 162K volte su Google
il Web non è lemmatizzato ed è difficile cercare pattern complessi
36
“Googleology is bad science”
(Kilgarriff 2007)
l 
L’uso dei motori di ricerca commerciali (Google, Yahoo!!, ecc.)
per raccogliere dati linguistici deve essere fatto con cautela e
non è sempre affidabile
l 
i risultati dipendono dalle specifiche caratteristiche dei motori di
ricerca
l 
l 
sono spesso non replicabili
l 
l 
l 
l 
algoritmi di indicizzazione e di recupero delle pagine
motori di ricerca differenti danno risultati molto diversi
lo stesso motore di ricerca produce numeri differenti a breve
distanza di tempo
le statistiche non sono affidabili per la presenza di documenti
duplicati, “headers”, ecc.
i risultati sono in termini di “hits” (pagine web) e non dell’effettiva
frequenza dell’espressione linguistica
37
Corpora di ultima generazione
web corpora
l 
Web 1T 5-gram (Google Inc.)
l 
l 
l 
dimensione: ca. 1 tera (1.000 miliardi) di parole
testi inglesi derivati dal Web
It-Wac (Baroni & Ueyama 2006)
l 
l 
l 
dimensione: ca. 1.3 giga (miliardi) di parole
testi italiani scaricati dal Web
annotati automaticamente
l 
l 
lemmatizzati e annotati a livello morfosintattico
Ten-Ten Corpora (SketchEngine)
l 
l 
famiglia di corpora di oltre 1010 parole
testi scaricati dal Web e annotati automaticamente
38
Google Books Corpus
Michel et al. (2011)
l 
Corpus di ca. 5,2 milioni di libri
l 
l 
sottoinsieme dei ca. 15 milioni di libri digitalizzati da Google
corpus multilingue con testi dal 1500 ai giorni nostri
l 
l 
risorsa di dati per la “culturomics”
l 
l 
l 
più di 361 miliardi di parole inglesi, 45 miliardi francesi, 45 miliardi spagnole,
ecc.
studio di mutamenti culturali attraverso l’analisi computazionale di corpora
testuali
“The corpus cannot be read by a human. If you tried to read only Englishlanguage entries from the year 2000 alone, at the reasonable pace of 200
words/min, without interruptions for food or sleep, it would take 80 years. The
sequence of letters is 1000 times longer than the human genome: If you wrote
it out in a straight line, it would reach to the Moon and back 10 times
over” (Michel et al. 2011: 176)
consultabile con Google Ngram Viewer: http://books.google.com/ngrams
39
Qualche conclusione
l 
l 
l 
I corpora offrono al linguista computazionale l’opportunità di
sviluppare modelli e applicazioni sulla base di dati linguistici
“ecologici” direttamente estratti dal loro “habitat” naturale, il
testo
La qualità e la quantità dei materiali raccolti determinano la
fisionomia del corpus
La valutazione del grado di rappresentatività del corpus deve
essere comunque l’orizzonte di riferimento
l 
è sempre necessario valutare in che misura i risultati di un
analisi o esperimento possano dipendere dalla scelta e dalla
natura dei dati a disposizione
40