Dizionari elettronici lessicografia computazionale
Transcript
Dizionari elettronici lessicografia computazionale
Dizionari elettronici Dizionari elettronici e dizionari macchina Applicazioni della lessicografia computazionale Dizionari informatizzati I dizionari basati su corpora Informatica e lingue naturali - Isabella Chiari (2004) 1 lessicografia computazionale Patrick Hanks (2003: 49) nell’Oxford Handbook of Computational Linguistics, la lessicografia computazionale ha due compiti: “1. la ristrutturazione e lo sfruttamento dei dizionari tradizionali a fini computazionali; 2. l’uso di tecniche computazionali per compilare nuovi dizionari”. Informatica e lingue naturali - Isabella Chiari (2004) 2 1 Problemi terminologici Il termine dizionario elettronico viene oggi usato in una molteplicità di sensi diversi. il termine dizionario-macchina che sottolinea la relazione stretta tra repertorio lessicale e applicazioni computazionali che svolgono operazioni facendo ricorso a tale repertorio. { { sottospecie di dizionario-macchina è il lessico di frequenza Lexical Databases o Resources I dizionari informatizzati sono ad esempio { { { { cd-rom distribuiti insieme al proprio corrispondente cartaceo dizionari che possiamo consultare o scaricare su internet Computer-Aided Traditional Lexicography dizionari basati su corpora Informatica e lingue naturali - Isabella Chiari (2004) 3 I dizionari-macchina nella ricerca linguistica machine-readable dictionary è un repertorio di lemmi o forme flesse di una lingua associate a una serie di informazioni linguistiche supplementari di vario tipo, i cui dati sono resi disponibili all’accesso di una o più applicazioni computazionali. i dizionari-macchina servono ad altre applicazioni quali ad esempio il riconoscimento e la sintesi vocale, la correzione ortografica, il tagging e il parsing sintattico o la traduzione automatica. Informatica e lingue naturali - Isabella Chiari (2004) 4 2 Esempio agli, aglio. N: mp (da Vietri, 2005: 441) agli, allo. PAA: mp Agnelli, Agnelli. NPR agnelli, agnello. N: mp ai, ai. ESC ai, aio. N+Um: mp ai, al. PAA: mp aiutano, aiutare. V+RSI:X3p aiutare, aiutare. V+RSI: I Informatica e lingue naturali - Isabella Chiari (2004) 5 Applicazioni della lessicografia computazionale Applicazioni di Natural Language Processing. Dizionari-macchina di tipo morfo-sintattico servono per la costruzione di applicazioni di parsing sintattico, tagging grammaticale, correzione ortografica e grammaticale, sillabazione di documenti Applicazioni delle tecnologie del parlato. Dizionari macchina dotati di informazioni sia fonetiche (acustiche e uditive) che morfo-sintattiche sono associati ai sistemi di sintesi del parlato (TTS), di riconoscimento vocale e di dialogo uomo-macchina Informatica e lingue naturali - Isabella Chiari (2004) 6 3 Ontologie e basi di conoscenza. Con l’ausilio di dizionari elettronici a base semantica (come WordNet) sono strutturati motori per l’estrazione di rappresentazioni astratte delle nostre conoscenze (knowledge bases, da cui deriviamo inferenze e sviluppiamo attese) da testi di vario tipo. { Lo sviluppo di ontologie, ossia di sistemi che rappresentano la struttura delle nostre conoscenze, a sua volta viene integrato in applicazioni di NLP come la correzione ortografica (per esempio per la disambiguazione delle omografie) o grammaticale, il riconoscimento del parlato, ma anche nella disambiguazione semantica, nel reperimento di informazioni nei documenti (text mining) e nell’estrazione di parole chiave e riassunti da un testo (summarization). Informatica e lingue naturali - Isabella Chiari (2004) 7 Traduzione automatica. Dizionari-macchina con informazioni lessicali e sintattiche (oltre che statistiche) sono indispensabili per i sistemi di traduzione assistita sia di tipo basato su regole che probabilistico Information retrieval ed information extraction. I dizionari-macchina sono inoltre essenziali per una serie di motori di cui si fa uso comunemente per selezionare documenti che presentino determinate caratteristiche (come alcuni motori di ricerca sul web) e per estrarre specifiche informazioni rilevanti dagli stessi documenti o da database strutturati. Informatica e lingue naturali - Isabella Chiari (2004) 8 4 Un esempio Wordnet http://wordnet.princeton.edu/ elaborato al Cognitive Science Laboratory dell’Università di Princeton e ideato dallo psicolinguista americano G. A. Miller. repertorio lessicale della lingua inglese organizzato per insiemi semantici in modo da rappresentare il modo con il quale immagazziniamo nella nostra mente le parole secondo i gruppi di significati e delle gerarchie semantiche. Informatica e lingue naturali - Isabella Chiari (2004) 9 A cosa serve? WordNet è implementato in diverse forme in applicazioni per l’identificazione delle accezioni delle parole, nell’information retrieval, nell’identificazione delle collocazioni, nella gestione di terminologie, nella disambiguazione semantica, nello sviluppo di ontologie. Informatica e lingue naturali - Isabella Chiari (2004) 10 5 MultiWordNet (http://multiwordnet.itc.it/) tratta anche la lingua italiana e che permette l’accesso a ricerche per famiglie lessicali, relazioni e campi semantici, traducenti in inglese, sinonimi, iponimi ed iperonimi per ciascuna accezione di una parola e anche l’accesso ad esempi autentici, nel formato di concordanze, tratti da corpora di riferimento. il dizionario è essenzialmente fondato sulle relazioni di sinonimia, che permettono di costruire insiemi sinonimici, detti synsets, del tipo {elaboratore, computer, cervello_elettronico, calcolatore}. MultiWordNet ad oggi ha censito 58.000 sensi della lingua italiana, e individuato 32.700 synsets. Informatica e lingue naturali - Isabella Chiari (2004) 11 Esempio di voce “calcolatore” has_hypernym {macchina} has_hyponym {calcolatore_analogico}, {calcolatore_digitale}, etc. has_part {microchip, chip}, etc. {elaboratore, computer, cervello_elettronico, calcolatore} corrisponde a {computer, data_processor, electronic_computer, information_processing_system} Informatica e lingue naturali - Isabella Chiari (2004) 12 6 Il dizionario informatizzato convenienti nella consultazione perché occupano poco spazio possono contenere una mole di informazione paragonabile a diversi volumi su carta. la ricerca di un lemma specifico è condotta nel giro di pochi secondi un dizionario informatizzato fornisce una vasta moltitudine di strumenti di studio e comprensione del lessico impossibili da estrarre da un dizionario cartaceo. si possono compiere delle ricerche avanzate per parti di parola (inizio, centro, fine), categoria grammaticale, data di attestazione, etimologia, marca d’uso, ecc. Informatica e lingue naturali - Isabella Chiari (2004) 13 Il progetto L’informatizzazione ha infatti rivoluzionato non solo il prodotto e le sue fruizioni, ma anche e soprattutto il lavoro di costruzione delle risorse linguistiche vere e proprie: { { { { l’acquisizione del materiale, la redazione delle voci, l’annotazione, la rappresentazione e il trattamento delle informazioni linguistiche che vengono processate. Il dizionario informatizzato diviene così un database lessicale standardizzato. Informatica e lingue naturali - Isabella Chiari (2004) 14 7 I dizionari basati su corpora Il ricorso a materiale desunto da corpora per l’esemplificazione ma anche per la strutturazione del dizionario e per le analisi linguistiche che sono necessarie per tali presentazioni è ancora relativamente nuovo. Al momento solamente la lingua inglese dispone di dizionari basati su corpora di carattere generale Informatica e lingue naturali - Isabella Chiari (2004) 15 Il progetto Cobuild Collins Cobuild English Dictionary for Advanced Learners (2001) associato alla Bank of English diretta da John Sinclair, sin dalla fine degli anni Ottanta ha lavorato alla elaborazione di dizionari corpus-based Informatica e lingue naturali - Isabella Chiari (2004) 16 8 L’uso dei corpora criteri di selezione e presentazione del materiale l’ordinamento delle accezioni canoni di definizione dei lemmi L’accesso diretto a corpora di riferimento serve inoltre per il disegno vero e proprio della voce, per raccogliere i poli di senso e individuare le principali accezioni. Informatica e lingue naturali - Isabella Chiari (2004) 17 Definizioni Lemma Cobuild, 2001 American Heritage, 2000 Blue Something that is blue is the colour of the sky on a sunny day The hue of that portion of the visible spectrum lying between green and indigo, evoked in the human observer by radiant energy with wavelengths of approximately 420 to 490 nanometers; any of a group of colors that may vary in lightness and saturation, whose hue is that of a clear daytime sky; one of the additive or light primaries; one of the psychological primary hues Qualcosa di blu ha il colore del cielo in una giornata di sole La tonalità di quella parte dello spettro visibile tra il verde e l'indaco, richiamata nell'osservatore umano da energia radiante di lunghezza d'onda di circa 420 - 490 nanometri; una serie di colori che possono variare nella luminosità e saturazione, la cui tonalità è quella di un cielo sereno di giorno; uno dei colori additivi primari; uno delle tonalità psicologiche primarie If you have got the blues, you feel sad and depressed A state of depression or melancholy Se hai il blues sei triste e depresso Stato di depressione e melanconia Blues Informatica e lingue naturali - Isabella Chiari (2004) 18 9