Slide Lezione (Corpora).

Transcript

Slide Lezione (Corpora).
La linguistica dei corpora
1
Argomenti trattati nella lezione:
DEFINIZIONE
ESEMPIO DI UTILIZZO
COSTRUZIONE
CODIFICA E ANNOTAZIONE
STANDARD DI CODIFICA E
ANNOTAZIONE
ANALISI DI UN CORPUS
LE APPLICAZIONI
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
La codifica digitale
g
del testo
che
h ti
tipo di
rappresentazione
di it l del
digitale
d l ttesto?
t ?
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Il testo e la sua organizzazione
intestazione
capitolo
titolo
testo
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Il testo e la sua struttura linguistica
sintagma
nominale
V andare
pass. rem. 3 sing.
frase relativa
articolo indefinito
femminile singolare
stanza come luogo
stanze =
oggetto di
riscaldare
tutti = soggetto
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
il testo come sequenza di caratteri
Le avventure di Pinocchio
Capitolo I
Come andò che Maestro Ciliegia, falegname,
trovò un pezzo di legno, che piangeva e
rideva come un bambino.
bambino
C'era una volta...
- Un re! - diranno subito i miei piccoli
lettori.
- No, ragazzi, avete sbagliato. C'era una
volta un pezzo di legno.
Non era un legno di lusso, ma un semplice
pezzo da catasta, di quelli che d'inverno
si mettono nelle stufe e nei caminetti per
accendere il fuoco e per riscaldare le
stanze.
Non so come andasse, ma il fatto gli è che
un bel giorno questo pezzo di legno capitò
nella bottega di un vecchio falegname, il
quale aveva nome mastr
mastr'Antonio
Antonio, se non che
tutti lo chiamavano maestro Ciliegia, per
via della punta del suo naso, che era
sempre lustra e paonazza, come una ciliegia
matura.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
corpus,
p , testo e unità testuali
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Definizione
Corpus indica una qualiasi raccolta, completa ed ordinata,
di scritti,
scritti di uno o più autori,
autori riguardanti una determinata
materia, oppure un campione di una lingua preso in
esame nella descrizione della lingua.
Una popolazione è un insieme di tutte le possibili osservazioni di una lingua su
un dato campo,
campo invece,
invece un campione,
campione è una sezione della popolazione,
popolazione che ne
ingloba solo alcune possibili osservazioni.
Un campione deve essere rappresentativo per essere utile e significativo.
Esistono vari metodo per valutare la rappresentatività di un campione, ma la
gg
parte delle valutazioni p
p
più accurate si basano sulla ricchezza del
maggior
vocabolario, misurata come numero di parole diverse presenti nel corpus.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Definizione
L’estensione di un corpus è la sua ampiezza, che influenza il grado di
rappresentatività di un campione testuale. L’estenzione di un corpus può essere:
Statica
•
•
•
•
•
•
•
Dinamica
•
Analisi condotte una sola volta e ripetibili
Facilmente distribuito
U t iin maniera
Usato
i
standardizzata
t d di t
Comparabilità dei risultati
Analisi di tipo diacronistico
Lavoro continuativo
Maggiore difficoltà di distribuzione e trattamento
Necessità di un corpus monitor
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Definizione
Il world wide web può essere considerato un corpus:
• enorme,
• facilmente accessibile,
i
• gratuito,
• vario negli stili, nelle tipologie e nei contenuti.
Mancanza di varietà
Accesso ai dati filtrato
Forte tasso di errore
Rappresentazione sbilanciata elementi linguistici
Dinamicità incontrollata
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Tipologia ed uso
Principali usi dei corpora
{
applicativo
Ù tipico dell’ingegneria del linguaggio, per progettare
strumenti:
|
|
{
dotati di conoscenze linguistiche direttamente ricavate da dati
rappresentativi di un certo dominio o varietà di linguaggio
“robusti” e ben adattati al linguaggio reale
analitico
Ù per fondare analisi e descrizioni linguistiche sull’effettiva
distribuzione delle costruzioni e fenomeni all’interno di un
linguaggio al fine di valutare ipotesi teoriche sulla sua forma
linguaggio,
ed organizzazione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio
p d’uso
Il Corpus di Italiano Televisivo (CiT) si
propone di effettuare analisi linguistiche
dell'italiano
contemporaneo,
su
dati
quantitativi strutturati e affidabili. Più in
particolare, ha come obiettivo l'analisi e la
d
descrizione
d ll
delle
peculiarità
l
à lessicali
l
l e
grammaticali
della
varietà
trasmessa
dell'italiano contemporaneo.
Tale corpus annotato è stato realizzato con trascrizioni di alcune trasmissioni
andate in onda sulle televisioni italiane, selezionate secondo un apposito criterio.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio
p d’uso
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio
p d’uso
Esempio di interrogazione: tecnicismi nelle trasmissioni sportive, con POS attivo
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio
p d’uso
Esempio di interrogazione: ricerca verbi al gerundio (TOS a colori)
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio
p d’uso
Esempio di interrogazione: lista di distribuzione dei verbi al gerundio
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Tipi di corpora
y
corpus specialistico
i li ti
{
orientato alla descrizione di una particolare varietà del linguaggio
(sublanguage) o ad un ristretto dominio applicativo
Ù
Ù
Ù
Ù
y
analisi della terminologia biomedica, ecc.
linguaggio infantile
linguaggio
g gg sportivo,
p
, economico,, ecc.
linguaggio patologico
corpus generale o di riferimento (reference corpus)
{
{
{
{
trasversale rispetto alle diverse varietà di un linguaggio L
plurifunzionale
orientato a rappresentare tutti gli aspetti caratteristici di L,
L
proponendosi come risorsa di riferimento per la descrizione di L
può essere organizzato in vari sottocorpora specializzati per varietà
di L
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Tipi di corpora
y
corpus sincronico
{
y
corpus diacronico
{
y
descrive il mutamento linguistico (i testi appartengono a diverse finestre
temporali)
corpus monolingue
{
y
descrive un particolare stadio del linguaggio (i testi appartengono tutti ad una
stessa finestra temporale)
contiene testi di una sola lingua
corpus bi/plurilingue
{
corpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una
lingua
Ù
{
corpus allineato
lli
– ciascuna
i
frase
f
(parola)
(
l ) della
d ll lingua
li
L1 è esplicitamente
li i
collegata col suo traducente nella lingua L2
corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle
p g ((ciascuna lingua
g è rappresentata
pp
da testi diversi))
stesse tipologie
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Tipi di corpora
y
corpus di scritto
{
y
corpus di parlato
{
y
testi scritti e trascrizioni di parlato (in proporzioni variabili)
speech database
{
y
solo trascrizioni di linguaggio parlato
corpus misto
i t
{
y
solo testi di linguaggio scritto
campioni di linguaggio parlato in forma di segnale acustico (più
eventualmente la trascrizione ortografica)
corpus multimediale
lti di l
{
testi scritti, video, parlato in forma di segnato acustico, ecc.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Corpora
p
paralleli
p
y Canadian Hansard Corpus (2001)
{
11,3
3 milioni di frasi francesi
francesi-inglesi
inglesi allineate a livello di frase,
frase tratte dagli
atti del Parlamento Canadese
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Corpora
p
paralleli
p
y MULTEXT (1996)
{
{
5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo,
tedesco, inglese)
g
800.000 parole allineate a livello di frase (inglese come lingua “pivot”)
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Quante
Qua
te pa
parole
o e co
compongono
po go o u
un’unità
u tà d
di testo
testo?
Le ricerche di Gabriella sono proseguite
per tutta la mattinata con elicotteri,
p
,
posti di blocco e perquisizioni.
ma cos’è
cos è una “parola”?
parola ?
Tecnologie per il trattamento e la comprensione
automatica del linguaggio naturale
Il “bestiario” del testo
L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul
sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento
e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del
26.6.1999, pag. 1), …
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Ambiguità
g
nel token
„
„
„
Tipicamente un elemento di punteggiatura (virgola, punto e virgola,
punto fermo) è considerato un separatore di token (e un token esso
stesso)
Ci sono casi però in cui questo non è vero
„ numeri con la virgola: 13,05
„ date: 18.3.2003
„ sigle e abbreviazioni: O.N.U.,
O N U sig
sig.ra,
ra S
S. Siro
„ ecc.
Tokenizzare un testo significa segmentarlo in token (parole unità)
attraverso regole che risolvono i casi ambigui
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Come contare? ((unità e tipo)
p )
„
„
„
„
il numero di unità (o frequenza) della parola giornale in un testo è uguale a
quante volte la stringa giornale appare in quel testo
il numero totale di unità in un testo è la lunghezza del testo misurata in parole
il numero di tipi (o cardinalità dell‘insieme) di parole in un testo è uguale a
quante p
q
parole diverse si trovano nel testo
il numero totale di tipi di parole in un testo è la grandezza del suo vocabolario
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio
p
Le ricerche
L
i
h di G
Gabriella
b i ll sono proseguite
it
per tutta la mattinata con elicotteri,
posti di blocco e perquisizioni.
„
„
„
numero di unità di preposizioni:
di
2
per 1
con 1
numero dei
d i tipi
ti i di preposizioni
i i i 3
numero totale di unità di preposizioni
4
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio
p ((II))
Le ricerche di Gabriella sono proseguite per
tutta la mattinata con elicotteri, posti di
blocco e perquisizioni.
„
il testo contiene
„ 19 “parole
p
unità” ((inclusa la p
punteggiatura)
gg
)
„ 1 parola tipo con 2 occorrenze
„ 17 parole tipo con 1 occorrenza ciascuna
TESTO
di
,
.
bl
blocco
con
e
elicotteri
gabriella
la
le
per
perquisizio
posti
proseguite
it
ricerche
serata
sono
tutta
freq
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Il vocabolario di “esempio”
p
Le ricerche di Gabriella sono proseguite per
tutta la mattinata con elicotteri, posti di
blocco e perquisizioni.
„
„
„
„
il vocabolario V consiste di 18 “parole” diverse
||V|| = 18
chiamiamo Vi la classe di parole che appaiono
con frequenza i volte ciascuna nel testo
allora
ll
|V |=
| |V1| + |V2| +...+
+ + |Vmax|,
|
dove max è la frequenza massima con cui una
parola appare
p
pp
nel nostro testo
TESTO
di
,
.
bl
blocco
con
e
elicotteri
gabriella
la
le
per
perquisizio
posti
proseguite
it
ricerche
serata
sono
tutta
freq
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Lunghezza
g
di una p
parola e di un testo
„
„
„
„
la lunghezza di una parola in caratteri è data dal numero di caratteri che la
compongono
p g
la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di
caratteri nel testo
la lunghezza media di una parola dato un testo è uguale alla lunghezza totale
del testo in caratteri divisa per la lunghezza dello stesso testo in parole
deviazione standard
∑
(li − l ) 2
i
N
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Lunghezza
g
di una p
parola e di un testo
TESTO
le
ricerche
di
gabriella
sono
proseguite
p
g
per
tutta
la
serata
con
elicotteri
,
posti
di
blocco
e
perquisizioni
.
lunghezza testo in caratteri
numero di occorrenze di token
lunghezza media per token
lunghezza
2
8
2
9
4
10
3
5
2
6
4
10
1
5
2
6
1
13
1
token
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
94
19
4.947368
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Quant’è ricco il vocabolario di un testo?
il rapporto “tipo/unità”
tipo/unità
Le ricerche di Gabriella sono proseguite per
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.
„
““rapporto
t tipo/unità”:
ti / ità” rapporto
t tra
t cardinalità
di lità del
d l
vocabolario e frequenza globale del testo
„ ||V|| / N
„ 40/44 = 0.91
„ 0 < ( |V| / N ) ≤ 1
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Quant’è ricco il vocabolario di un testo?
il numero di “h
“hapax legomena”
l
”
Le ricerche di Gabriella sono proseguite per
tutta la serata con elicotteri, posti di blocco
e perquisizioni. Una prima segnalazione e'
e stata
inviata alla Procura della Repubblica, poi il
caso e' passato nelle mani del giudici di viale
delle Milizie.
„
„
„
un hapax
h
llegomenon è una parola
l con ffrequenza 1
1,
cioè un membro della classe di frequenza V1
||V1||/ N
37/44 = 0.84
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Costruzione
Scelta
della
struttura in base alla voluta
rappresentativi
tà
Pi ifi i
Pianificazione
Acquisizione
Concreto
reperimento
del materiale
Analisi
Eliminazione
errori presenti
Analisi
A
li i d
deii
termini
costituenti
C
i
Correzione
p
Fasi della costruzione di un corpus
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Costruzione
Stabilire regole
di analisi
Segmentazione
dei confini delle
parole
Distinzione di
lessemi e types
Individuazione
delle occorrenze
Passi di analisi del materiale
iniziale di un corpus
Valutazione di un corpus: Il rapporto tra i tipi di parole e le occorrenze testuali
(type/token ratio) ci dà un’approssimazione della ricchezza del vocabolario del
questa misura,, che non tiene
testo esaminato. Esiste anche un’altra definizione di q
conto dei types, ma dei lessemi.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Codifica e annotazione
L’annotazione è una forma di codifica di un corpus, e consiste
nell’associazione di un’etichetta a una porzione specifica e ben
d li it t di testo.
delimitata
t t
Il linguaggio usato per la specifica delle etichette è detto linguaggio di markup.
Il metalinguaggio di markup è un ulteriore livello di astrazione, e stabilisce la
forma sintattica delle etichette.
etichette Costituisce la base per il processo di validazione
delle etichette.
Il p
processo di annotazione p
può essere:
Semi-automatico
Manuale
Automatico
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
Requisiti di uno standard di annotazione
Indipendenza
di ffruizione
i i
Specifica
delle operazioni
Esplicitazione dei
criteri di annotazione
Forma standard di codifica
Esplicazione fasi di annotazione
Separazione e autonomia
tra materiale grezzo e quello della codifica
f
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
TEI ha definito delle linee guida per ll’annotazione
annotazione di corpora:
• Uso del formato di marcatura SGML o XML;
• Codifica dei caratteri ISO 646 e Unicode;
• Annotazione di tipo strutturale/semantico;
• Ontologia di annotazione comune;
• Definizione di un insieme standard di etichette;
• Diversificazione del livello di annotazione in:
1. Etichettatura obbligatoria;
2. Etichettatura raccomandata;
p
3. Etichettatura opzionale.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
La creazione di documenti TEI è fatta in conformità ad un set di DTD XML.
Set Addizionali
• Elementi speciali
p
• Header speciali
Set Base
• Tipizzazione
p
dei testi
• Elementi specifici
Set Core
• Elementi comuni
• Struttura dell’header
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
Esempio di annotazione di un
corpus con TEI e di header di
un corpus annotato.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
ATLAS è un’architettura e un insieme di strumenti per l’analisi di
risorse linguistiche lineari.
Consente di segmentare il materiale e di tipizzare le annotazioni,
annotazioni
comprendendo un set di metainformazioni basato su Dublin Core.
È caratterizzato da un modello di annotazione molto astratto, che
lascia spazio
p
all’adattamento a specifiche
p
esigenze.
g
AIF
API
Ontologia
MAIA
A T L A S
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
Segnale
Annota
zione
A
Ancora
Ontologia
Conte
nuto
Regione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
L’architettura di annotazione
è relativamente generale, con
pochi vincoli.
vincoli
L’API permette la connessione delle ontologie di base
con le applicazioni, la definizione di tipi (MAIA) ed un
linguaggio di interrogazione
(AQL).
ATLAS
S fornisce
o sce a
anche
c e se
servizi
v
si Input/Output, collegati alle
ontologie e ai segnali d’origine.
g
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
y Mentre ATLAS e TEI si occupano soprattutto di
norme generali per la codifica di qualunque tipo di
testo esistono altri standard che si focalizzano
testo….
sulle annotazioni linguistiche
y Il Corpus Encoding Standard (CES) è un progetto di
codifica dei corpora ideato per applicazioni di
ingegneria linguistica
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
CES è uno strumento per la codifica basato su annotazioni strutturali e
grammaticali. È conforme alle TEI Guidelines, e utilizza SGML e XML.
C
Comprende
d note d’uso
d’
d l metalinguaggio,
del
li
i set di elementi
l
i di documentazione,
d
i
ed
d
etichette.
La codifica
L
difi dei
d i dati
d ti primari
i
i riguarda
i
d tre
t ambiti:
biti
• Divisione del testo in frasi e parole;
• Descrizione morfosintattica delle parole;
• Allineamento e collegamento di testi.
testi
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Analisi di un corpus
p
Analisi
f
frequenza
L’analisi di un corpus si compone
fondamentalmente di tre task
distinti.
Un’analisi di frequenza è
lo studio del numero di
occorrenze per ogni forma
che compare nel corpus.
Lemma
tizzazione
Analisi
concordanze
La lemmatizzazione
è la
o
riduzione della forma
flessa di uno stesso lessema a un solo lemma.
L’analisi delle concordanze
è
l’individuazione
del
cotesto di ogni parola.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Analisi di un corpus
p
L’analisi di frequenza genera una lista di frequenza, ovvero una tabella, in cui
sono inserite le varie forme che compaiono nel corpus, congiuntamente a due
misure:
• Numero di occorrenze assoluto
l
di ognii singola
i
l forma
f
nell corpus;
• Frequenza relativa delle occorrenze per ogni forma nel corpus.
Frequenza relativa = (Fw/N)
Il risultato di un’analisi di frequenza è detta formario del corpus.
Questa operazione può essere
condotta anche a valle di una lemmatizzazione, ottenendo un formario
l
lemmatizzato.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Analisi di un corpus
p
La frequenza
L
f
(f) iindica
di globalmente
l b l
t il numero di occcorrenze di una specifica
ifi
parola.
La dispersione (D) evidenzia se sono presenti delle concentrazioni di occorrenze
Suddivisione
corpus in parti
Frequenze
relative
Misura
dispersione
Misura della dispersione:
p
La stima d’uso (U) di un particolare elemento linguistico è dato da U = Df
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Analisi di un corpus
p
Per poter
P
t
svolgere
l
l lemmala
l
tizzazione in maniera automatica,
un software deve:
• disporre di tutte le possibile
forme flesse di un lessema;
• saperle riconoscere nel corpus in analisi;
• poterle sostituire con il lemma
giusto.
Il risultato del processo di lemmatizzazione è una lista lemmata, con le forme
flesse del corpus, il relativo inquadramento sintattico e lemma.
Per realizzare una lista lemmata, è doveroso essere in grado di risolvere la
disambiguazione degli omografi: forme flesse con la stessa scrittura, ma che si
riferiscono a lemmi differenti.
differenti
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Analisi di un corpus
p
Il cotesto di una parola è l’insieme delle parole che si accompagnano a quella in
esame all’interno di un corpus. Fornisce informazioni d’uso della specifica parola,
e aiuta ad individuare i casi d’uso p
più frequenti.
q
La concordanza è lo strumento per estrarre da un corcor
pus le parole e i relativi cotesti.
La concordanza presenta le
parole del corpus, indicandone la frequenza di occor
occorrenza e il cotesto, che viene
indicato in forma KWIC.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Le applicazioni
pp
dello studio dei corpora
p
Dizionari
• Individuazione accezioni delle parole
• Incidenza termini nell’uso corrente
• Definizione casi d’uso delle p
parole
Grammatiche
• Maggiore aderenza agli usi correnti della
lingua
g
• Individuazione regole d’uso della lingua
Trattamento
automatico
• Realizzazione parser
parser, tagger e lemmatizlemmatiz
zatori statistici
• Traduzione automatica più accurata
Didattica
• Realizzazione testi adeguabili alle esigenze
degli studenti
• Organizzazione
g
insegnamento
g
della lingua
g
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale