Linguistica dei Corpora (2) Lezione 15: Tipi di Corpora e loro usi

Transcript

Linguistica dei Corpora (2) Lezione 15: Tipi di Corpora e loro usi
Informazione “esterna”
Tipi di corpora
Sommario
Linguistica dei Corpora (2)
Lezione 15: Tipi di Corpora e loro usi
Malvina Nissim
[email protected]
20 Maggio 2009
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Patterns
Outline
1
Informazione “esterna”
Patterns
2
Tipi di corpora
Corpora monolingui
Corpora paralleli
Il Web
3
Sommario
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Patterns
Features più avanzate
parole intorno non ci dicono tutto
raggruppamenti di parole su base semantica, per esempio
strutture più specifiche
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Patterns
Hyponymy patterns (Hearst 1992)
NP such as NP
“animals such as dogs”
such NP as NP
“works by such authors as Herrick, Goldsmith, and
Shakespeare”
NP or/and other NP
“bruises, wounds, broken bones or other injuries”
“temples, treasuries, and other important civic buildings”
NP, including NP
“all Shengen countries, including Italy and Germany”
NP, especially NP
“most European countries, especially France, England, and
Spain”
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Patterns
Meronymy patterns (Berland & Charniak 1998)
N’s N
“building’s basement”
N of/in the/a Adj* N
“basement of/in a building”
N-PL of/in N-PL
“basements of/in buildings”
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Patterns
Antonymy patterns
?
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Outline
1
Informazione “esterna”
Patterns
2
Tipi di corpora
Corpora monolingui
Corpora paralleli
Il Web
3
Sommario
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Caratteristiche auspicabili
Quantità : the bigger, the better
Qualità : i testi sono autentici, l’annotazione è valida (XML)
Semplicità : la rappresentazione digitale è comprensibile,
l’annotazione può facilmente essere rimossa dal testo
Documentazione : metadata
corpus monolingue
corpus multilingue
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Generici
Caratteristiche:
uno spaccato della lingua completa
criteri di design curati e dettagliati
documentazione e annotazione
questioni legali, disponibilità
Criteri per la scelta dei testi:
rappresentatività: il corpus include tutti i tipi di testi
bilanciamento: le dimensioni degli esempi dei tipi di testo
devono essere proporzionali all’“importanza” di tali esempi per
i parlanti di una data lingua
metodologia ottimale vs questioni pratiche
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Specifici
tematici (legge, biologia, arte, ...)
specifica “sorgente” (solo adulti, solo bambini, ...)
specifico fenomeno linguistico
...
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Metodi di Annotazione
manuale: documentazione, strumenti generici quali XML e
stylesheets, softare specifico (es. GATE)
semi-automatica: interazione con strumenti auotmatici
approccio ciclico: automatico, manuale, validazione,
correzione, automatico, manuale, ...
automatica, con regole scritte a mano: espressioni regolari,
usato per tokenizzazione, per esempio
automatica tramite apprendimento: modelli costruiti da dati
annotati: “supervised learning” (algoritmi vari, vedi Weka)
automatica tramite clustering : modelli costruiti da dati
non-annotati “unsupervised leaning”
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Corpora paralleli
corpus parallelo bilingue o multilingue: collezione di testi in
due o più lingue con i medesimi contenuti
utile per ricerche in linguistica computazionale, traduzioni,
lessicografia, ...:
estrazione di terminologia specifica in lingue diverse per la
creazione di glossari
aiuto per il traduttore specialmente in casi di traduzione
non-letterale
studi di strategie di traduzione
...
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Allineamento
per frase
per parola (GIZA++)
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Alcuni corpora paralleli
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Alcuni corpora paralleli
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Alcuni corpora paralleli
La Bibbia
Hansards of the 36th Parliament of Canada (http:
//www.isi.edu/natural-language/download/hansard/):
1.3 milioni di coppie di frasi (19.8 milioni di parole in Inglese e
21.2 milioni di parole in Francese)
Europarl corpus (European Parliament Proceedings Parallel
Corpus 1996-2003)
(http://www.isi.edu/~koehn/europarl/)
11 lingue: Danish, Dutch, English, Finnish, French, German,
Greek, Italian, Portuguese, Spanish, Swedish
OPUS corpus parallelo open source
(http://logos.uio.no/opus/) Europarl corpus + vari
manuali di software (oltre 20 lingue, tra cui Cinese, Ebraico,
Giapponese, Coreano, Russo, Turco)
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Alcuni corpora paralleli
Europarl
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Il Web: Vantaggi
grandezza più grande collezione di dati esistente: molti algoritmi
di apprendimento automatico raggiungono risultati
migliori con più dati, anche se questi dati non sono
perfetti; alcuni fenomeni rari si trovano in quantità
sufficiente solo se i dati sono davvero tanti
multi-lingualità si possono costruire corpora per lingue per le quali
corpora di riferimento standard non esistono, o per le
quali esistono solo corpora mono-sorgenti (articoli di
giornale, per esempio)
varietà generi che non sono presenti se non sul Web: blog,
comunicazione interattiva scritta che presenta
caratteristiche della comunicazione orale, . . .
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Il Web: Svantaggi
rumore i dati non sono affatto controllati da un punto di
vista di correttezza, possono essere duplicati, ...
questioni legali praticamente impossibile ottenere il permesso per
l’utilizzo di tutti i dati diversi usati
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Corpora monolingui
Corpora paralleli
Il Web
Uso del Web
Web come corpus: ottenere frequenze direttamente dal Web come
se fosse un qualsiasi corpus. Sfrutta interfacce preconfezionate (API,
Application Programmer Interface) funzionanti su GOOGLE,
Altavista, . . . Il numero di richieste al giorno può essere limitato.
Non si possono usare espressioni regolari. Problema con function
words. I numeri non sono mai veramente gli stessi.
Corpus dal Web: sfruttando gli APIs dei motori di ricerca e query
specifiche costruire corpora che possono poi essere soggetti a
post-processing linguistico di vario tipo. Le pagine ottenute sono
comunque soggette a scelte non controllabili (limite massimo di dati
scaricabili al giorno, ranking)
Corpus dal Web “artigianalmente”: creare strumenti di crawling
diretto di pagine web.
⇒
Wacky initiative, BootCat
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Outline
1
Informazione “esterna”
Patterns
2
Tipi di corpora
Corpora monolingui
Corpora paralleli
Il Web
3
Sommario
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Sommario
lo facciamo insieme
Malvina Nissim
LC2 – Lezione 15
Informazione “esterna”
Tipi di corpora
Sommario
Cercate cercate cercate...
... e troverete!
Malvina Nissim
LC2 – Lezione 15

Documenti analoghi

Proposte didattiche attorno ad un corpus di testi

Proposte didattiche attorno ad un corpus di testi (http://info.ox.ac.uk/bnc/using/papers/astor96a.html). Chris Tribble (un altro dei pionieri dell’uso didattico di questi strumenti) offre utili indicazioni pratiche per chi è interessato all’acquis...

Dettagli

1) cosa è un corpus e cosa è la corpus linguistics (P)/

1) cosa è un corpus e cosa è la corpus linguistics (P)/ data lingua sono state rese in un’altra. Ad esempio l’avverbio inglese “still” può essere espresso in francese con “toujours” o “encore”, o con l’espressione “couramment” o addirittura con il verbo...

Dettagli