Slide Lezione (Corpora).

Transcript

La linguistica dei corpora
1
Argomenti trattati nella lezione:
DEFINIZIONE
ESEMPIO DI UTILIZZO
COSTRUZIONE
CODIFICA E ANNOTAZIONE
STANDARD DI CODIFICA E
ANNOTAZIONE
ANALISI DI UN CORPUS
LE APPLICAZIONI
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
La codifica digitale
g
del testo
che
h ti
tipo di
rappresentazione
di it l del
digitale
d l ttesto?
t ?
Il testo e la sua organizzazione
intestazione
capitolo
titolo
testo
Il testo e la sua struttura linguistica
sintagma
nominale
V andare
pass. rem. 3 sing.
frase relativa
articolo indefinito
femminile singolare
stanza come luogo
stanze =
oggetto di
riscaldare
tutti = soggetto
il testo come sequenza di caratteri
Le avventure di Pinocchio
Capitolo I
Come andò che Maestro Ciliegia, falegname,
trovò un pezzo di legno, che piangeva e
rideva come un bambino.
bambino
C'era una volta...
- Un re! - diranno subito i miei piccoli
lettori.
- No, ragazzi, avete sbagliato. C'era una
volta un pezzo di legno.
Non era un legno di lusso, ma un semplice
pezzo da catasta, di quelli che d'inverno
si mettono nelle stufe e nei caminetti per
accendere il fuoco e per riscaldare le
stanze.
Non so come andasse, ma il fatto gli è che
un bel giorno questo pezzo di legno capitò
nella bottega di un vecchio falegname, il
quale aveva nome mastr
mastr'Antonio
Antonio, se non che
tutti lo chiamavano maestro Ciliegia, per
via della punta del suo naso, che era
sempre lustra e paonazza, come una ciliegia
matura.
corpus,
p , testo e unità testuali
Definizione
Corpus indica una qualiasi raccolta, completa ed ordinata,
di scritti,
scritti di uno o più autori,
autori riguardanti una determinata
materia, oppure un campione di una lingua preso in
esame nella descrizione della lingua.
Una popolazione è un insieme di tutte le possibili osservazioni di una lingua su
un dato campo,
campo invece,
invece un campione,
campione è una sezione della popolazione,
popolazione che ne
ingloba solo alcune possibili osservazioni.
Un campione deve essere rappresentativo per essere utile e significativo.
Esistono vari metodo per valutare la rappresentatività di un campione, ma la
gg
parte delle valutazioni p
p
più accurate si basano sulla ricchezza del
maggior
vocabolario, misurata come numero di parole diverse presenti nel corpus.
Definizione
L’estensione di un corpus è la sua ampiezza, che influenza il grado di
rappresentatività di un campione testuale. L’estenzione di un corpus può essere:
Statica
•
•
•
•
•
•
•
Dinamica
•
Analisi condotte una sola volta e ripetibili
Facilmente distribuito
U t iin maniera
Usato
i
standardizzata
t d di t
Comparabilità dei risultati
Analisi di tipo diacronistico
Lavoro continuativo
Maggiore difficoltà di distribuzione e trattamento
Necessità di un corpus monitor
Definizione
Il world wide web può essere considerato un corpus:
• enorme,
• facilmente accessibile,
i
• gratuito,
• vario negli stili, nelle tipologie e nei contenuti.
Mancanza di varietà
Accesso ai dati filtrato
Forte tasso di errore
Rappresentazione sbilanciata elementi linguistici
Dinamicità incontrollata
Tipologia ed uso
Principali usi dei corpora
{
applicativo
Ù tipico dell’ingegneria del linguaggio, per progettare
strumenti:
|
|
{
dotati di conoscenze linguistiche direttamente ricavate da dati
rappresentativi di un certo dominio o varietà di linguaggio
“robusti” e ben adattati al linguaggio reale
analitico
Ù per fondare analisi e descrizioni linguistiche sull’effettiva
distribuzione delle costruzioni e fenomeni all’interno di un
linguaggio al fine di valutare ipotesi teoriche sulla sua forma
linguaggio,
ed organizzazione
Esempio
p d’uso
Il Corpus di Italiano Televisivo (CiT) si
propone di effettuare analisi linguistiche
dell'italiano
contemporaneo,
su
dati
quantitativi strutturati e affidabili. Più in
particolare, ha come obiettivo l'analisi e la
d
descrizione
d ll
delle
peculiarità
l
à lessicali
l
l e
grammaticali
della
varietà
trasmessa
dell'italiano contemporaneo.
Tale corpus annotato è stato realizzato con trascrizioni di alcune trasmissioni
andate in onda sulle televisioni italiane, selezionate secondo un apposito criterio.
Esempio
p d’uso
Esempio
p d’uso
Esempio di interrogazione: tecnicismi nelle trasmissioni sportive, con POS attivo
Esempio
p d’uso
Esempio di interrogazione: ricerca verbi al gerundio (TOS a colori)
Esempio
p d’uso
Esempio di interrogazione: lista di distribuzione dei verbi al gerundio
Tipi di corpora
y
corpus specialistico
i li ti
{
orientato alla descrizione di una particolare varietà del linguaggio
(sublanguage) o ad un ristretto dominio applicativo
Ù
Ù
Ù
Ù
y
analisi della terminologia biomedica, ecc.
linguaggio infantile
linguaggio
g gg sportivo,
p
, economico,, ecc.
linguaggio patologico
corpus generale o di riferimento (reference corpus)
{
{
{
{
trasversale rispetto alle diverse varietà di un linguaggio L
plurifunzionale
orientato a rappresentare tutti gli aspetti caratteristici di L,
L
proponendosi come risorsa di riferimento per la descrizione di L
può essere organizzato in vari sottocorpora specializzati per varietà
di L
Tipi di corpora
y
corpus sincronico
{
y
corpus diacronico
{
y
descrive il mutamento linguistico (i testi appartengono a diverse finestre
temporali)
corpus monolingue
{
y
descrive un particolare stadio del linguaggio (i testi appartengono tutti ad una
stessa finestra temporale)
contiene testi di una sola lingua
corpus bi/plurilingue
{
corpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una
lingua
Ù
{
corpus allineato
lli
– ciascuna
i
frase
f
(parola)
(
l ) della
d ll lingua
li
L1 è esplicitamente
li i
collegata col suo traducente nella lingua L2
corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle
p g ((ciascuna lingua
g è rappresentata
pp
da testi diversi))
stesse tipologie
Tipi di corpora
y
corpus di scritto
{
y
corpus di parlato
{
y
testi scritti e trascrizioni di parlato (in proporzioni variabili)
speech database
{
y
solo trascrizioni di linguaggio parlato
corpus misto
i t
{
y
solo testi di linguaggio scritto
campioni di linguaggio parlato in forma di segnale acustico (più
eventualmente la trascrizione ortografica)
corpus multimediale
lti di l
{
testi scritti, video, parlato in forma di segnato acustico, ecc.
Corpora
p
paralleli
p
y Canadian Hansard Corpus (2001)
{
11,3
3 milioni di frasi francesi
francesi-inglesi
inglesi allineate a livello di frase,
frase tratte dagli
atti del Parlamento Canadese
Corpora
p
paralleli
p
y MULTEXT (1996)
{
{
5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo,
tedesco, inglese)
g
800.000 parole allineate a livello di frase (inglese come lingua “pivot”)
Quante
Qua
te pa
parole
o e co
compongono
po go o u
un’unità
u tà d
di testo
testo?
Le ricerche di Gabriella sono proseguite
per tutta la mattinata con elicotteri,
p
,
posti di blocco e perquisizioni.
ma cos’è
cos è una “parola”?
parola ?
Tecnologie per il trattamento e la comprensione
automatica del linguaggio naturale
Il “bestiario” del testo
L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul
sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento
e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del
26.6.1999, pag. 1), …
Ambiguità
g
nel token

Tipicamente un elemento di punteggiatura (virgola, punto e virgola,
punto fermo) è considerato un separatore di token (e un token esso
stesso)
Ci sono casi però in cui questo non è vero
numeri con la virgola: 13,05
date: 18.3.2003
sigle e abbreviazioni: O.N.U.,
O N U sig
sig.ra,
ra S
S. Siro
ecc.
Tokenizzare un testo significa segmentarlo in token (parole unità)
attraverso regole che risolvono i casi ambigui
Come contare? ((unità e tipo)
p )

il numero di unità (o frequenza) della parola giornale in un testo è uguale a
quante volte la stringa giornale appare in quel testo
il numero totale di unità in un testo è la lunghezza del testo misurata in parole
il numero di tipi (o cardinalità dell‘insieme) di parole in un testo è uguale a
quante p
q
parole diverse si trovano nel testo
il numero totale di tipi di parole in un testo è la grandezza del suo vocabolario
Esempio
p
Le ricerche
L
i
h di G
Gabriella
b i ll sono proseguite
it
per tutta la mattinata con elicotteri,
posti di blocco e perquisizioni.

numero di unità di preposizioni:
di
2
per 1
con 1
numero dei
d i tipi
ti i di preposizioni
i i i 3
numero totale di unità di preposizioni
4
Esempio
p ((II))
Le ricerche di Gabriella sono proseguite per
tutta la mattinata con elicotteri, posti di
blocco e perquisizioni.

il testo contiene
19 “parole
p
unità” ((inclusa la p
punteggiatura)
gg
)
1 parola tipo con 2 occorrenze
17 parole tipo con 1 occorrenza ciascuna
TESTO
di
,
.
bl
blocco
con
e
elicotteri
gabriella
la
le
per
perquisizio
posti
proseguite
it
ricerche
serata
sono
tutta
freq
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Il vocabolario di “esempio”
p
tutta la mattinata con elicotteri, posti di
blocco e perquisizioni.

il vocabolario V consiste di 18 “parole” diverse
||V|| = 18
chiamiamo Vi la classe di parole che appaiono
con frequenza i volte ciascuna nel testo
allora
ll
|V |=
| |V1| + |V2| +...+
+ + |Vmax|,
|
dove max è la frequenza massima con cui una
parola appare
p
pp
nel nostro testo
TESTO
di
,
.
bl
blocco
con
e
elicotteri
gabriella
la
le
per
perquisizio
posti
proseguite
it
ricerche
serata
sono
tutta
freq
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Lunghezza
g
di una p
parola e di un testo

la lunghezza di una parola in caratteri è data dal numero di caratteri che la
compongono
p g
la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di
caratteri nel testo
la lunghezza media di una parola dato un testo è uguale alla lunghezza totale
del testo in caratteri divisa per la lunghezza dello stesso testo in parole
deviazione standard
∑
(li − l ) 2
i
N
Lunghezza
g
di una p
parola e di un testo
TESTO
le
ricerche
di
gabriella
sono
proseguite
p
g
per
tutta
la
serata
con
elicotteri
,
posti
di
blocco
e
perquisizioni
.
lunghezza testo in caratteri
numero di occorrenze di token
lunghezza media per token
lunghezza
2
8
2
9
4
10
3
5
2
6
4
10
1
5
2
6
1
13
1
token
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
94
19
4.947368
Quant’è ricco il vocabolario di un testo?
il rapporto “tipo/unità”
tipo/unità
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.

““rapporto
t tipo/unità”:
ti / ità” rapporto
t tra
t cardinalità
di lità del
d l
vocabolario e frequenza globale del testo
||V|| / N
40/44 = 0.91
0 < ( |V| / N ) ≤ 1
Quant’è ricco il vocabolario di un testo?
il numero di “h
“hapax legomena”
l
”
tutta la serata con elicotteri, posti di blocco
e perquisizioni. Una prima segnalazione e'
e stata
inviata alla Procura della Repubblica, poi il
caso e' passato nelle mani del giudici di viale
delle Milizie.

un hapax
h
llegomenon è una parola
l con ffrequenza 1
1,
cioè un membro della classe di frequenza V1
||V1||/ N
37/44 = 0.84
Costruzione
Scelta
della
struttura in base alla voluta
rappresentativi
tà
Pi ifi i
Pianificazione
Acquisizione
Concreto
reperimento
del materiale
Analisi
Eliminazione
errori presenti
Analisi
A
li i d
deii
termini
costituenti
C
i
Correzione
p
Fasi della costruzione di un corpus
Costruzione
Stabilire regole
di analisi
Segmentazione
dei confini delle
parole
Distinzione di
lessemi e types
Individuazione
delle occorrenze
Passi di analisi del materiale
iniziale di un corpus
Valutazione di un corpus: Il rapporto tra i tipi di parole e le occorrenze testuali
(type/token ratio) ci dà un’approssimazione della ricchezza del vocabolario del
questa misura,, che non tiene
testo esaminato. Esiste anche un’altra definizione di q
conto dei types, ma dei lessemi.
Codifica e annotazione
L’annotazione è una forma di codifica di un corpus, e consiste
nell’associazione di un’etichetta a una porzione specifica e ben
d li it t di testo.
delimitata
t t
Il linguaggio usato per la specifica delle etichette è detto linguaggio di markup.
Il metalinguaggio di markup è un ulteriore livello di astrazione, e stabilisce la
forma sintattica delle etichette.
etichette Costituisce la base per il processo di validazione
delle etichette.
Il p
processo di annotazione p
può essere:
Semi-automatico
Manuale
Automatico
Standard di codifica e annotazione
Requisiti di uno standard di annotazione
Indipendenza
di ffruizione
i i
Specifica
delle operazioni
Esplicitazione dei
criteri di annotazione
Forma standard di codifica
Esplicazione fasi di annotazione
Separazione e autonomia
tra materiale grezzo e quello della codifica
f
TEI ha definito delle linee guida per ll’annotazione
annotazione di corpora:
• Uso del formato di marcatura SGML o XML;
• Codifica dei caratteri ISO 646 e Unicode;
• Annotazione di tipo strutturale/semantico;
• Ontologia di annotazione comune;
• Definizione di un insieme standard di etichette;
• Diversificazione del livello di annotazione in:
1. Etichettatura obbligatoria;
2. Etichettatura raccomandata;
p
3. Etichettatura opzionale.
La creazione di documenti TEI è fatta in conformità ad un set di DTD XML.
Set Addizionali
• Elementi speciali
p
• Header speciali
Set Base
• Tipizzazione
p
dei testi
• Elementi specifici
Set Core
• Elementi comuni
• Struttura dell’header
Esempio di annotazione di un
corpus con TEI e di header di
un corpus annotato.
ATLAS è un’architettura e un insieme di strumenti per l’analisi di
risorse linguistiche lineari.
Consente di segmentare il materiale e di tipizzare le annotazioni,
annotazioni
comprendendo un set di metainformazioni basato su Dublin Core.
È caratterizzato da un modello di annotazione molto astratto, che
lascia spazio
p
all’adattamento a specifiche
p
esigenze.
g
AIF
API
Ontologia
MAIA
A T L A S
Segnale
Annota
zione
A
Ancora
Ontologia
Conte
nuto
Regione
L’architettura di annotazione
è relativamente generale, con
pochi vincoli.
vincoli
L’API permette la connessione delle ontologie di base
con le applicazioni, la definizione di tipi (MAIA) ed un
linguaggio di interrogazione
(AQL).
ATLAS
S fornisce
o sce a
anche
c e se
servizi
v
si Input/Output, collegati alle
ontologie e ai segnali d’origine.
g
y Mentre ATLAS e TEI si occupano soprattutto di
norme generali per la codifica di qualunque tipo di
testo esistono altri standard che si focalizzano
testo….
sulle annotazioni linguistiche
y Il Corpus Encoding Standard (CES) è un progetto di
codifica dei corpora ideato per applicazioni di
ingegneria linguistica
CES è uno strumento per la codifica basato su annotazioni strutturali e
grammaticali. È conforme alle TEI Guidelines, e utilizza SGML e XML.
C
Comprende
d note d’uso
d’
d l metalinguaggio,
del
li
i set di elementi
l
i di documentazione,
d
i
ed
d
etichette.
La codifica
L
difi dei
d i dati
d ti primari
i
i riguarda
i
d tre
t ambiti:
biti
• Divisione del testo in frasi e parole;
• Descrizione morfosintattica delle parole;
• Allineamento e collegamento di testi.
testi
Analisi di un corpus
p
Analisi
f
frequenza
L’analisi di un corpus si compone
fondamentalmente di tre task
distinti.
Un’analisi di frequenza è
lo studio del numero di
occorrenze per ogni forma
che compare nel corpus.
Lemma
tizzazione
Analisi
concordanze
La lemmatizzazione
è la
o
riduzione della forma
flessa di uno stesso lessema a un solo lemma.
L’analisi delle concordanze
è
l’individuazione
del
cotesto di ogni parola.
p
L’analisi di frequenza genera una lista di frequenza, ovvero una tabella, in cui
sono inserite le varie forme che compaiono nel corpus, congiuntamente a due
misure:
• Numero di occorrenze assoluto
l
di ognii singola
i
l forma
f
nell corpus;
• Frequenza relativa delle occorrenze per ogni forma nel corpus.
Frequenza relativa = (Fw/N)
Il risultato di un’analisi di frequenza è detta formario del corpus.
Questa operazione può essere
condotta anche a valle di una lemmatizzazione, ottenendo un formario
l
lemmatizzato.
p
La frequenza
L
f
(f) iindica
di globalmente
l b l
t il numero di occcorrenze di una specifica
ifi
parola.
La dispersione (D) evidenzia se sono presenti delle concentrazioni di occorrenze
Suddivisione
corpus in parti
Frequenze
relative
Misura
dispersione
Misura della dispersione:
p
La stima d’uso (U) di un particolare elemento linguistico è dato da U = Df
p
Per poter
P
t
svolgere
l
l lemmala
l
tizzazione in maniera automatica,
un software deve:
• disporre di tutte le possibile
forme flesse di un lessema;
• saperle riconoscere nel corpus in analisi;
• poterle sostituire con il lemma
giusto.
Il risultato del processo di lemmatizzazione è una lista lemmata, con le forme
flesse del corpus, il relativo inquadramento sintattico e lemma.
Per realizzare una lista lemmata, è doveroso essere in grado di risolvere la
disambiguazione degli omografi: forme flesse con la stessa scrittura, ma che si
riferiscono a lemmi differenti.
differenti
p
Il cotesto di una parola è l’insieme delle parole che si accompagnano a quella in
esame all’interno di un corpus. Fornisce informazioni d’uso della specifica parola,
e aiuta ad individuare i casi d’uso p
più frequenti.
q
La concordanza è lo strumento per estrarre da un corcor
pus le parole e i relativi cotesti.
La concordanza presenta le
parole del corpus, indicandone la frequenza di occor
occorrenza e il cotesto, che viene
indicato in forma KWIC.
Le applicazioni
pp
dello studio dei corpora
p
Dizionari
• Individuazione accezioni delle parole
• Incidenza termini nell’uso corrente
• Definizione casi d’uso delle p
parole
Grammatiche
• Maggiore aderenza agli usi correnti della
lingua
g
• Individuazione regole d’uso della lingua
Trattamento
automatico
• Realizzazione parser
parser, tagger e lemmatizlemmatiz
zatori statistici
• Traduzione automatica più accurata
Didattica
• Realizzazione testi adeguabili alle esigenze
degli studenti
• Organizzazione
g
insegnamento
g
della lingua
g