Dizionari elettronici lessicografia computazionale

Transcript

Dizionari elettronici lessicografia computazionale
Dizionari elettronici
Dizionari elettronici e dizionari macchina
Applicazioni della lessicografia
computazionale
Dizionari informatizzati
I dizionari basati su corpora
Informatica e lingue naturali - Isabella Chiari
(2004)
1
lessicografia computazionale
„
„
„
Patrick Hanks (2003: 49) nell’Oxford
Handbook of Computational Linguistics, la
lessicografia computazionale ha due
compiti:
“1. la ristrutturazione e lo sfruttamento dei
dizionari tradizionali a fini computazionali;
2. l’uso di tecniche computazionali per
compilare nuovi dizionari”.
Informatica e lingue naturali - Isabella Chiari
(2004)
2
1
Problemi terminologici
„
„
Il termine dizionario elettronico viene oggi usato in
una molteplicità di sensi diversi.
il termine dizionario-macchina che sottolinea la
relazione stretta tra repertorio lessicale e
applicazioni computazionali che svolgono
operazioni facendo ricorso a tale repertorio.
{
{
„
sottospecie di dizionario-macchina è il lessico di
frequenza
Lexical Databases o Resources
I dizionari informatizzati sono ad esempio
{
{
{
{
cd-rom distribuiti insieme al proprio corrispondente
cartaceo
dizionari che possiamo consultare o scaricare su internet
Computer-Aided Traditional Lexicography
dizionari basati su corpora
Informatica e lingue naturali - Isabella Chiari
(2004)
3
I dizionari-macchina nella
ricerca linguistica
„
„
„
machine-readable dictionary
è un repertorio di lemmi o forme flesse di una lingua
associate a una serie di informazioni linguistiche
supplementari di vario tipo, i cui dati sono resi
disponibili all’accesso di una o più applicazioni
computazionali.
i dizionari-macchina servono ad altre applicazioni
quali ad esempio il riconoscimento e la sintesi
vocale, la correzione ortografica, il tagging e il
parsing sintattico o la traduzione automatica.
Informatica e lingue naturali - Isabella Chiari
(2004)
4
2
Esempio
„
„
„
„
„
„
„
„
„
agli, aglio. N: mp
(da Vietri, 2005: 441)
agli, allo. PAA: mp
Agnelli, Agnelli. NPR
agnelli, agnello. N: mp
ai, ai. ESC
ai, aio. N+Um: mp
ai, al. PAA: mp
aiutano, aiutare. V+RSI:X3p
aiutare, aiutare. V+RSI: I
Informatica e lingue naturali - Isabella Chiari
(2004)
5
Applicazioni della lessicografia
computazionale
„
„
Applicazioni di Natural Language Processing.
Dizionari-macchina di tipo morfo-sintattico servono
per la costruzione di applicazioni di parsing
sintattico, tagging grammaticale, correzione
ortografica e grammaticale, sillabazione di
documenti
Applicazioni delle tecnologie del parlato. Dizionari
macchina dotati di informazioni sia fonetiche
(acustiche e uditive) che morfo-sintattiche sono
associati ai sistemi di sintesi del parlato (TTS), di
riconoscimento vocale e di dialogo uomo-macchina
Informatica e lingue naturali - Isabella Chiari
(2004)
6
3
„
Ontologie e basi di conoscenza. Con l’ausilio di
dizionari elettronici a base semantica (come
WordNet) sono strutturati motori per l’estrazione di
rappresentazioni astratte delle nostre conoscenze
(knowledge bases, da cui deriviamo inferenze e
sviluppiamo attese) da testi di vario tipo.
{
Lo sviluppo di ontologie, ossia di sistemi che
rappresentano la struttura delle nostre conoscenze, a sua
volta viene integrato in applicazioni di NLP come la
correzione ortografica (per esempio per la
disambiguazione delle omografie) o grammaticale, il
riconoscimento del parlato, ma anche nella
disambiguazione semantica, nel reperimento di
informazioni nei documenti (text mining) e nell’estrazione
di parole chiave e riassunti da un testo (summarization).
Informatica e lingue naturali - Isabella Chiari
(2004)
„
„
7
Traduzione automatica. Dizionari-macchina con
informazioni lessicali e sintattiche (oltre che
statistiche) sono indispensabili per i sistemi di
traduzione assistita sia di tipo basato su regole che
probabilistico
Information retrieval ed information extraction. I
dizionari-macchina sono inoltre essenziali per una
serie di motori di cui si fa uso comunemente per
selezionare documenti che presentino determinate
caratteristiche (come alcuni motori di ricerca sul
web) e per estrarre specifiche informazioni rilevanti
dagli stessi documenti o da database strutturati.
Informatica e lingue naturali - Isabella Chiari
(2004)
8
4
Un esempio Wordnet
„
„
„
http://wordnet.princeton.edu/
elaborato al Cognitive Science Laboratory
dell’Università di Princeton e ideato dallo
psicolinguista americano G. A. Miller.
repertorio lessicale della lingua inglese
organizzato per insiemi semantici in modo
da rappresentare il modo con il quale
immagazziniamo nella nostra mente le
parole secondo i gruppi di significati e delle
gerarchie semantiche.
Informatica e lingue naturali - Isabella Chiari
(2004)
9
A cosa serve?
„
WordNet è implementato in diverse
forme in applicazioni per
l’identificazione delle accezioni delle
parole, nell’information retrieval,
nell’identificazione delle collocazioni,
nella gestione di terminologie, nella
disambiguazione semantica, nello
sviluppo di ontologie.
Informatica e lingue naturali - Isabella Chiari
(2004)
10
5
MultiWordNet
„
„
„
„
(http://multiwordnet.itc.it/)
tratta anche la lingua italiana e che permette
l’accesso a ricerche per famiglie lessicali, relazioni
e campi semantici, traducenti in inglese, sinonimi,
iponimi ed iperonimi per ciascuna accezione di una
parola e anche l’accesso ad esempi autentici, nel
formato di concordanze, tratti da corpora di
riferimento.
il dizionario è essenzialmente fondato sulle relazioni
di sinonimia, che permettono di costruire insiemi
sinonimici, detti synsets, del tipo {elaboratore,
computer, cervello_elettronico, calcolatore}.
MultiWordNet ad oggi ha censito 58.000 sensi della
lingua italiana, e individuato 32.700 synsets.
Informatica e lingue naturali - Isabella Chiari
(2004)
11
Esempio di voce “calcolatore”
has_hypernym {macchina}
has_hyponym {calcolatore_analogico},
{calcolatore_digitale}, etc.
has_part {microchip, chip}, etc.
{elaboratore, computer, cervello_elettronico,
calcolatore}
corrisponde a
{computer, data_processor,
electronic_computer,
information_processing_system}
Informatica e lingue naturali - Isabella Chiari
(2004)
12
6
Il dizionario informatizzato
„
„
„
„
„
convenienti nella consultazione perché occupano poco
spazio
possono contenere una mole di informazione
paragonabile a diversi volumi su carta.
la ricerca di un lemma specifico è condotta nel giro di
pochi secondi
un dizionario informatizzato fornisce una vasta
moltitudine di strumenti di studio e comprensione del
lessico impossibili da estrarre da un dizionario cartaceo.
si possono compiere delle ricerche avanzate per parti di
parola (inizio, centro, fine), categoria grammaticale, data
di attestazione, etimologia, marca d’uso, ecc.
Informatica e lingue naturali - Isabella Chiari
(2004)
13
Il progetto
„
L’informatizzazione ha infatti rivoluzionato
non solo il prodotto e le sue fruizioni, ma
anche e soprattutto il lavoro di costruzione
delle risorse linguistiche vere e proprie:
{
{
{
{
„
l’acquisizione del materiale,
la redazione delle voci,
l’annotazione, la rappresentazione e
il trattamento delle informazioni linguistiche che
vengono processate.
Il dizionario informatizzato diviene così un
database lessicale standardizzato.
Informatica e lingue naturali - Isabella Chiari
(2004)
14
7
I dizionari basati su corpora
„
„
Il ricorso a materiale desunto da corpora per
l’esemplificazione ma anche per la
strutturazione del dizionario e per le analisi
linguistiche che sono necessarie per tali
presentazioni è ancora relativamente nuovo.
Al momento solamente la lingua inglese
dispone di dizionari basati su corpora di
carattere generale
Informatica e lingue naturali - Isabella Chiari
(2004)
15
Il progetto Cobuild
„
„
„
Collins Cobuild English Dictionary for
Advanced Learners (2001)
associato alla Bank of English diretta
da John Sinclair,
sin dalla fine degli anni Ottanta ha
lavorato alla elaborazione di dizionari
corpus-based
Informatica e lingue naturali - Isabella Chiari
(2004)
16
8
L’uso dei corpora
„
„
„
„
criteri di selezione e presentazione del
materiale
l’ordinamento delle accezioni
canoni di definizione dei lemmi
L’accesso diretto a corpora di riferimento
serve inoltre per il disegno vero e proprio
della voce, per raccogliere i poli di senso
e individuare le principali accezioni.
Informatica e lingue naturali - Isabella Chiari
(2004)
17
Definizioni
Lemma
Cobuild, 2001
American Heritage, 2000
Blue
Something that is blue is the
colour of the sky on a
sunny day
The hue of that portion of the visible spectrum lying
between green and indigo, evoked in the human
observer by radiant energy with wavelengths of
approximately 420 to 490 nanometers; any of a group
of colors that may vary in lightness and saturation,
whose hue is that of a clear daytime sky; one of the
additive or light primaries; one of the psychological
primary hues
Qualcosa di blu ha il colore del
cielo in una giornata di
sole
La tonalità di quella parte dello spettro visibile tra il verde
e l'indaco, richiamata nell'osservatore umano da
energia radiante di lunghezza d'onda di circa 420 - 490
nanometri; una serie di colori che possono variare
nella luminosità e saturazione, la cui tonalità è quella
di un cielo sereno di giorno; uno dei colori additivi
primari; uno delle tonalità psicologiche primarie
If you have got the blues, you
feel sad and depressed
A state of depression or melancholy
Se hai il blues sei triste e
depresso
Stato di depressione e melanconia
Blues
Informatica e lingue naturali - Isabella Chiari
(2004)
18
9