Semantica e lessico
Transcript
Semantica e lessico
12/03/2010 I. Chiari, Linguistica computazionale - a.a. 2009/2010 1 SEMANTICA E LESSICO Per la lessicografia contemporanea Definizioni Discipline 2 Vocabolario: insieme delle parole di una lingua o parte di esso; insieme di parole che parlanti specifici di una lingua possiedono; nell‟uso comune è l‟opera che raccoglie il lessico; in questa accezione è sinonimo di dizionario Lessicografia: tecnica di composizione dei dizionari Semantica: settore del lessico relativo al significato e ai suoi meccanismi Parola: definizione problematica. Spesso usata con il significato di voce,vocabolo.La definizione più diffusa di parola è “segmento della catena parlata o del testo scritto tale che non sia interrompibile da altri elementi, che sia mobile, che possa comparire da solo e che abbia un significato” (Beccaria, G. (1994). Dizionario di linguistica e di filologia, metrica, retorica. Torino, Einaudi) I. Chiari, Linguistica computazionale - a.a. 2009/2010 1 12/03/2010 vocabolario 3 Da T. De Mauro, La fabbrica delle parole, UTET, 2000. I. Chiari, Linguistica computazionale - a.a. 2009/2010 lessico 4 Da T. De Mauro, La fabbrica delle parole, UTET, 2000. I. Chiari, Linguistica computazionale - a.a. 2009/2010 2 12/03/2010 dizionario 5 Da T. De Mauro, La fabbrica delle parole, UTET, 2000. I. Chiari, Linguistica computazionale - a.a. 2009/2010 Terminologia della lessicologia 6 Parole chiave • LESSEMA • termine adoperato in lessicologia strutturale e “indica l‟unità lessicale a due facce (significante e significato) appartenente al piano della langue, del sistema linguistico e come tale astratta “ • LEMMA • Forma di citazione del lessema nel dizionario • TERMINE • parola appartenente a un linguaggio settoriale, ad un ambito definito,avente un significato preciso e univoco (es. termine regionale, dialettale) • PAROLA TESTUALE o occorrenza • PAROLA GRAFICA • Sequenza di caratteri alfabetici compresi tra due spazi o segni di interpunzione • POLIREMATICA I. Chiari, Linguistica computazionale - a.a. 2009/2010 3 12/03/2010 TERMINOLOGIA 7 PAROLA (Inglese: WORD) Un‟unita‟ linguistica a cui sono associate una funzione grammaticale ed un significato (Marello) FORME di parola / parole testuali Varianti morfologiche di una parola con funzioni grammaticali anche diverse: BELLO, BELLISSIMO DOTTORE, DOTTORI MANGERO‟, MANGIARE da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 TERMINOLOGIA (2) 8 VOCE di un dizionario (Inglese: ENTRY) Le informazioni date da un dizionario su una parola indicizzata da un certo LEMMA LEMMA La forma di parola „canonica‟ usata per rappresentare la parola nel dizionario (per esempio, per deciderne la posizione alfabetica) Per esempio, DOTTORE per il sostantivo con forme DOTTORE, DOTTORI MANGIARE per il verbo con forme MANGIO / MANGIERO‟ / MANGIO‟ da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 4 12/03/2010 Lessemi e parole testuali 9 Quel ramo del lago di Como, che volge a mezzogiorno, tra due catene non interrotte di monti, tutto a seni e a golfi, a seconda dello sporgere e del rientrare di quelli, vien, quasi a un tratto, a ristringersi, e a prender corso e figura di fiume, tra un promontorio a destra, e un'ampia costiera dall'altra parte; e il ponte, che ivi congiunge le due rive, par che renda ancor più sensibile all'occhio questa trasformazione, e segni il punto in cui il lago cessa, e l'Adda rincomincia, per ripigliar poi nome di lago dove le rive, allontanandosi di nuovo, lascian l'acqua distendersi e rallentarsi in nuovi golfi e in nuovi seni. Il testo contiene 116 parole testuali/grafiche (tokens) • la congiunzione e occorre 10 volte, • la preposizione a e di, rispettivamente 8 e 6 volte, ecc. 76 tipi di parole (types) I. Chiari, Linguistica computazionale - a.a. 2009/2010 Dizionari ed enciclopedie 10 “Dictionaries are about words” “Encyclopedias are about knowledge” La voce di un dizionario sulla parola „TOAD‟ ne da‟ forma e pronuncia, etimologia, grammatica, uso, e significati Un articolo di enciclopedia su “TOAD” e‟ un riassunto piu‟ o meno breve della conoscenza sull‟argomento ovviamente ci sono aspetti in comune da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 5 12/03/2010 UN ESEMPIO DI VOCE IN DIZIONARIO 11 toad /təųd/ n. 1 any froglike amphibian of the family Bufonidae, esp. of the genus Bufo, breeding in water but living chiefly on land. 2 any of various similar tailless amphibians. 3 a repulsive or detestable person. toadish adj. [Old English tadige, tadde, tada, of unknown origin] (COD 9) da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 UN ESEMPIO DI VOCE IN ENCICLOPEDIA 12 TOAD The true toads are amphibians in the Bufonidae family. A number of species in other families of Amphibia are commonly referred to as toads. This is because the characteristics that are popularly used to distinguish frogs from toads are not quite the same as those used for scientific classification. The type species of the family Bufonidae is the Common toad, Bufo bufo, and around it cluster a large number of species of the same genus, and some smaller genera. B. bufo is a tailless amphibian of stout build, with a warty skin, and any animal that shares these characteristics is liable to be called a toad, regardless of its location in formal taxonomy. That the shape of the body is not a safe guide in judging of anuran groups is shown by some true frogs (Rana), which have adapted to burrowing habits, and are absolutely toad-like. The Bufonidae include terrestrial, burrowing, thoroughly aquatic and arboreal types; Rhinophrynus, of Mexico, may be described as an anteater. Almost all toads have two lumps near the head, called the parotid glands. These glands da Poesio, diapositive di Lessicografia contain poison, which oozes out if the toad is angered. Some, like cane toads, are more (http://www.dit.unitn.it/~poesio/Teach/IU) poisonous than others. I. Chiari, Linguistica computazionale - a.a. 2009/2010 6 12/03/2010 SEMANTICA E LESSICO 13 Principi di base I. Chiari, Linguistica computazionale - a.a. 2009/2010 Semantica lessicale Ambiguità del significato 14 Ambiguità: alcuni lessemi hanno più di un significato (più di un riferimento) Polisemia: un lessema con più significati in qualche misura collegati fra di loro esecuzione: 1. „realizzazione di un brano musicale‟ 2. „messa in atto di una pena‟ 1. „arto superiore‟ 2. „quantità di vernice data su un muro' mano: Omonimia: un lessema con più significati non collegati fra di loro (in realtà si tratta di lessemi diversi) „SCANNARE‟ come „fare a pezzi‟ / „italianizzazione di TO SCAN‟; GRU come uccello / macchina per sollevare pesi spesso: letto: 1. „Agg., denso‟ 2. „Avv., frequentemente‟ 1. „nome, mobile per dormire‟ 2. „p.pass., voce del verbo leggere' I. Chiari, Linguistica computazionale - a.a. 2009/2010 7 12/03/2010 Ancora sulla polisemia 15 La polisemia di una parola può essere causata dal contesto sintattico in cui si trova: (1) Gianni si è dimenticato di aver chiuso la porta ricaviamo l‟informazione che Gianni aveva chiuso la porta «presupposizione di fattività» (2) Gianni si è dimenticato di chiudere la porta ricaviamo l‟informazione contraria, ossia che Gianni non aveva chiuso la porta (3) Gianni ha cotto le uova le uova esistevano anche prima che Gianni le cuocesse, «cambiamento di stato», «presupposizione di esistenza» (4) Gianni ha cotto una frittata Gianni ha «prodotto» qualcosa di nuovo, la frittata esiste solo perché Gianni l‟ha cotta I. Chiari, Linguistica computazionale - a.a. 2009/2010 Estensioni del significato: metafora e metonimia 16 La polisemia può anche essere causata da metafora e metonimia Metafora: uso traslato di una parola, sulla base di una «somiglianza» tra il significato «fondamentale» e il significato traslato vite 1: „pianta, con viticci attorcigliati‟ => vite 2: „utensile, con filettatura‟ (la filettatura della vite 2 assomiglia al viticcio della vite 1) Metonimia: consiste nell‟estendere il significato di una parola a un altro connesso al primo per «contiguità» mano 1: „arto‟ => mano 2: „turno nel gioco di carte‟ mano 3: „quantità di vernice data‟ (è con la mano che si gioca a carte o si vernicia) I. Chiari, Linguistica computazionale - a.a. 2009/2010 8 12/03/2010 Relazioni di significato 17 Sinonimia: lessemi diversi con lo stesso significato mano sovente („turno di gioco‟) Antonimia: lessemi che esprimono significati opposti Antonimi contrari: = manche = smazzata = frequentemente = spesso bianco vs. nero, caldo vs. freddo ammettono entità intermedie (per es. grigio, tiepido) Antonimi contraddittori: scapolo vs. sposato, vero vs. falso Iponimia: il sign. di un lessema è «incluso» in quello di un altro lessema airone «iponimo di» uccello uccello «iponimo di» animale Iperonimia: il sign. di un lessema «include» quello di un altro lessema animale «iperonimo di» uccello uccello «iperonimo di» airone I. Chiari, Linguistica computazionale - a.a. 2009/2010 SINONIMIA 18 Origini: Words from different strata: Dialect difference Biscuit / cookie; Lorry / truck Non e‟ mai perfetta: Italiano: PAPA‟ vs. PADRE / PEDALINO vs. CALZINO Everything is illuminated: Begin vs commence (Jackson p. 17) `harmonize‟ invece di „agree‟ „rigid‟ invece di „hard‟ „disseminate‟ invece di „spend‟ “forgetful dogs.” Vedi: http://parole.alice.it/parole/sinonimi_e_contrari/ da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 9 12/03/2010 Semantica frasale 19 L‟ipotesi più semplice: il principio di composizionalità «il significato di una frase è il risultato della combinazione dei significati delle parole che la compongono» Funziona in molti casi, ma a volte risulta troppo restrittivo: 1. 2. le frasi spesso contengono «qualcosa in più» rispetto ai singoli elementi che le compongono alcune combinazioni di parole hanno un significato che non è ricavabile dalle singole parole da cui sono costituite lessicalizzazioni (espressioni idiomatiche, polirematiche) tagliare la corda sbarcare il lunario essere al verde I. Chiari, Linguistica computazionale - a.a. 2009/2010 20 DIZIONARI Costruzione, caratteristiche, prospettive I. Chiari, Linguistica computazionale - a.a. 2009/2010 10 12/03/2010 2. Dizionari 21 Un dizionario non corrisponde al «lessico mentale»: La lessicografia cerca di raccogliere l’insieme delle parole usate da tutta una comunità linguistica, anche dal punto di vista diacronico La lessicografia tradizionale non cerca di descrivere la competenza lessicale di un parlante Un dizionario si pone a livello della langue saussuriana Un dizionario non rappresenta la competenza chomskiana Un dizionario è costituito da entrate lessicali o lemmi è necessario lemmatizzare le parole: (per es. avremmo amato, amando, amavamo, amammo ecc. vanno tutte ricondotte al lemma amare) per ogni lemma troviamo altre informazioni trascrizione fonetica o fonologica, etimologia, categoria lessicale, esempi di utilizzo e varie accezioni semantiche I. Chiari, Linguistica computazionale - a.a. 2009/2010 2.2 Lessicalizzazioni 22 In un dizionario trovano posto tutte le forme imprevedibili, che hanno forme o significati idiosincratici (non formate tramite regole): parole semplici: casa, libro, felice forme lessicalizzate: (espressioni il cui significato non è desumibile dalla somma dei significati delle parti) parole complesse non-trasparenti: dirigibile, volante costruzioni polirematiche: tagliare la corda, nontiscordardimé sigle, acronimi, parole «macedonia», abbreviazioni: CGIL, polfer, racc. gli altri tipi di parole vengono invece «costruiti» tramite le regole della morfologia, e non è necessario scriverle esplicitamente nel dizionario I. Chiari, Linguistica computazionale - a.a. 2009/2010 11 12/03/2010 Stratificazioni dell‟italiano: uso e registro stilistico nei dizionari 23 I livelli d’uso nel DISC: antico (aderbare, adunazione) antiquato (accorruomo, dappoiché) dialettale (cadrega, ceraso) letterario (accadimento, gemebondo) non comune (accarezzevole, acquiescere) regionale (abbacchio, appizzare, bagigi) toscano (babbione, berciare, bischeraggio) I registri stilistici nel DISC: familiare (acciderba, aggeggiare, appioppare, baluba) gergale (attacchinaggio, cuccare, fico, matusa, sfiga) ironico (ambientino, genietto, lentocrazia, santerello) popolare (ammucchiata, arruffianamento, buggerare) scherzoso (cervellone, comprendonio, fantastilione) spregiativo (canzonettaro, galoppino, mangiapolenta) volgare (bagascia, incazzato, leccaculo, stronzata) I. Chiari, Linguistica computazionale - a.a. 2009/2010 Stratificazioni dell‟italiano: frequenza d‟uso 24 I dizionari più recenti introducono indicazioni sulla frequenza d‟uso delle parole Per esempio, il De Mauro - Paravia usa queste categorie: FO: fondamentale (vocaboli frequentissimi, come a, di, il, faccia, andare; da soli coprono il 90% dello scritto o del parlato) AU: alto uso/frequenza (parole come bensì, viso, recarsi che coprono all‟incirca il 6-8% dei testi e discorsi, note a chi ha un livello almeno medio di istruzione) AD: di alta disponibilità (relativamente rari nel parlare o scrivere, ma legati a oggetti o atti della vita quotidiana, come coperchio, furgone, garza, pantofola) I. Chiari, Linguistica computazionale - a.a. 2009/2010 12 12/03/2010 Il vocabolario di base (De Mauro 1980) 25 FO : fondamentale; tra i lemmi principali, sono così marcati 2049 vocaboli di altissima frequenza, le cui occorrenze costituiscono circa il 90% delle occorrenze lessicali nell‟insieme di tutti i testi scritti o discorsi parlati; AU : di alto uso; sono così marcati 2576 vocaboli di alta frequenza, le cui occorrenze costituiscono un altro 6% circa delle occorrenze lessicali nell‟insieme di tutti i testi scritti o discorsi parlati; AD : di alta disponibilità; sono così marcati 1897 vocaboli, relativamente rari nel parlare o scrivere, ma tutti ben noti perché legati ad atti e oggetti di grande rilevanza nella vita quotidiana (alluce, batuffolo, carrozzeria, dogana, ecc.). I vocaboli fondamentali, di alto uso e di alta disponibilità (quest‟ultimo è il gruppo più esposto al variare della cultura materiale e richiede aggiornamenti relativamente frequenti) costituiscono nell‟insieme il “vocabolario di base” (De Mauro 1999a, XX). I. Chiari, Linguistica computazionale - a.a. 2009/2010 Stratificazione del lessico 26 LS Vocabolario comune Vocabolario Di base I. Chiari, Linguistica computazionale - a.a. 2009/2010 13 12/03/2010 Vocabolario COMUNE (Gradit) 27 I. Chiari, Linguistica computazionale - a.a. 2009/2010 Vocabolario tecnico-specialistico 28 I. Chiari, Linguistica computazionale - a.a. 2009/2010 14 12/03/2010 Letterario, regionale, dialettale 29 I. Chiari, Linguistica computazionale - a.a. 2009/2010 Esotismi, basso uso, obsoleti 30 I. Chiari, Linguistica computazionale - a.a. 2009/2010 15 12/03/2010 COMPILARE UN DIZIONARIO 31 La compilazione di un dizionario comporta tre aspetti: Scelta delle voci Identificazione dei testi Scrittura delle voci da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) SCELTA DELLE VOCI 32 Tre fonti primarie: Dizionari precedenti (non si parte da zero) Citation file (= archivio di citazioni della casa editrice) (Vedi Nuovi sotto per quel che riguarda Dr. Johnson‟s / OED) testi da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 16 12/03/2010 RESTRIZIONI 33 Costo Della creazione (OED: tra il 1858 ed il 1928) Del volume Spazio da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) ORGANIZZAZIONE 34 Le voci in un dizionario possono essere organizzate In ordine ALFABETICO In ordine TEMATICO da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 17 12/03/2010 35 Le voci del dizionario Come sono fatte, cosa contengono I. Chiari, Linguistica computazionale - a.a. 2009/2010 COSA SI TROVA IN UNA VOCE 36 Il LEMMA della parola Le altre FORME (ortografia e pronuncia) La loro STRUTTURA (da quali morfemi sono composti) Informazioni GRAMMATICALI Esempi di USO ETIMOLOGIA Il SIGNIFICATO della parola (compresi sinonimi) da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 18 12/03/2010 TRE TIPI DI PAROLE 37 Main words Subordinate words Afforse, obs. variant of AFFORCE Afforst, obs. variant of ATHIRST Composite da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) STRUTTURA DELLE VOCI 38 IDENTIFICATION Spelling (con alternanze): Jowl, jole `Citizenship in the language‟: Kursaal Pronunciation (non ancora IPA) MORPHOLOGY Form history of the word SIGNIFICATION ILLUSTRATIVE QUOTATIONS da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 19 12/03/2010 FORME DI PAROLA 39 PRONUNCIA Fonemi, oggigiorno solitamente IPA /təųd/ Prosodia (accento) ORTOGRAFIA Sillabe Varianti da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 INFORMAZIONI GRAMMATICALI 40 Morfologia Verbi: inflessioni Nomi: forma del plurale dito dita Sintassi Parte del discorso (con restrizioni: awake predicative (the baby is awake) ma non attributive (*the awake baby) Verbi: transitivo / intransitivo, quali tipi di preposizioni, etc. Classe flessionale Modificata da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 20 12/03/2010 DESCRIZIONE DELL‟USO 41 Fascia d‟uso (su analisi di corpora); marca Spesso in forma di citazioni (vedi esempi successivi) Espressioni comuni (collocazioni) Modificata dada Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 COLLOCAZIONI 42 Frasi fatte: Studente lavoratore, padre padrone, governo ombra Preferenze d‟uso: Il sostantivo ban tipicamente modificato dagli aggettivi total o complete, associato con il verbo impose, etc. da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 21 12/03/2010 SIGNIFICATO 43 Una delle funzioni piu‟ importanti di un dizionario e‟ caratterizzare le ACCEZIONI di una parola attraverso DEFINIZIONI Probabilmente l‟aspetto piu‟ difficile della lessicografia da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 IL PROBLEMA DEL SIGNIFICATO 44 Come possiamo caratterizzare questo significato? Come minimo, come trovare un modo per caratterizzare questo significato che ci permetta di distinguere tra queste accezioni diverse? da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 22 12/03/2010 SIGNIFICATO IN UN DIZIONARIO 45 RIFERIMENTO OK: „bicicletta‟ / `tromba‟ Piu‟ difficile: „deferenza‟ / „ridicolo‟ RELAZIONI SEMANTICHE Sinonimia Antonimia Iponimia CONNOTAZIONE inspire vs. fundamentalist COLLOCAZIONI da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU) I. Chiari, Linguistica computazionale - a.a. 2009/2010 Significato, senso, accezioni (GRADIT) 46 I. Chiari, Linguistica computazionale - a.a. 2009/2010 23 12/03/2010 47 ESEMPI DI DEFINIZIONI Tutti tratti dal GRADIT I. Chiari, Linguistica computazionale - a.a. 2009/2010 Abbracciare1 e 2 48 I. Chiari, Linguistica computazionale - a.a. 2009/2010 24 12/03/2010 circostanza 49 I. Chiari, Linguistica computazionale - a.a. 2009/2010 palazzo 50 I. Chiari, Linguistica computazionale - a.a. 2009/2010 25 12/03/2010 fortuna 51 I. Chiari, Linguistica computazionale - a.a. 2009/2010 guadagnare 52 I. Chiari, Linguistica computazionale - a.a. 2009/2010 26 12/03/2010 nutrire 53 I. Chiari, Linguistica computazionale - a.a. 2009/2010 Fare 54 I. Chiari, Linguistica computazionale - a.a. 2009/2010 27 12/03/2010 Parole grammaticali 55 I. Chiari, Linguistica computazionale - a.a. 2009/2010 56 I. Chiari, Linguistica computazionale - a.a. 2009/2010 28 12/03/2010 LINGUAGGI SETTORIALI: folle 57 Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010) L‟esempio di forza 58 Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010) 29 12/03/2010 Frizione e candela 59 Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010) 7. definizioni analogiche 60 Soprattutto per la formazione di polirematiche basate su meccanismi metaforici (elettrodo a baffo di gatto, valvole a farfalla, cellule a palizzata, a bastoncello, a fiamma) Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010) 30 12/03/2010 61 Tipi di dizionari Caratteristiche ed esempi I. Chiari, Linguistica computazionale - a.a. 2009/2010 Differenze tra dizionari 62 Il contenuto delle voci cambia a seconda de Il TIPO di dizionario (monolingue / bilingue, eta‟ dell‟utente, livello di specializzazione) La FUNZIONE (d‟uso, di riferimento) da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 31 12/03/2010 TIPI DI DIZIONARI 63 Dizionari `general purpose‟ = `desk‟ o „concise‟ Dizionari „di riferimento‟ Dizionari per learners Dizionari specialistici Dizionari BILINGUI da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) DIZIONARI ONOMASIOLOGICI/ TESAURI 64 Dizionario ONOMASIOLOGICO: voci raggruppate per SOGGETTI invece che in ordine alfabetico I dizionari Italiani piu‟ antichi sono in questa forma (Alunno, 1548) TESAURI: dizionari organizzati per RELAZIONI LESSICALI e tipicamente strutturati in modo CONCETTUALE Peter Mark Roget, THESAURUS OF ENGLISH WORDS AND PHRASES (1852) da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 32 12/03/2010 ALTRI TIPI DI DIZIONARI 65 Dizionari ETIMOLOGICI Concentra solamente su derivazione delle parole LEI Lessico Epistemologico Italiano (Max Pfister, in completamento) Pianigiani: http://www.etimo.it/ Dizionari dei SINONIMI e dei CONTRARI Tommaseo, 1830 da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) GRADIT De Mauro 1999: ca 360.000 lemmi e sottolemmi 66 260.709 lemmi monorematici 67.678 polirematiche (130.000 lemmi con associate polirematiche) I. Chiari, Linguistica computazionale - a.a. 2009/2010 33 12/03/2010 Criteri ordinamento accezioni e quantità 67 I. Chiari, Linguistica computazionale - a.a. 2009/2010 Legami tra accezioni 68 I. Chiari, Linguistica computazionale - a.a. 2009/2010 34 12/03/2010 Definizioni e significati 69 I. Chiari, Linguistica computazionale - a.a. 2009/2010 Struttura delle definizioni 70 I. Chiari, Linguistica computazionale - a.a. 2009/2010 35 12/03/2010 Tipologie di voci 71 I. Chiari, Linguistica computazionale - a.a. 2009/2010 Nomi di piante e animali 72 I. Chiari, Linguistica computazionale - a.a. 2009/2010 36 12/03/2010 Sinonimi nel GRADIT 73 I. Chiari, Linguistica computazionale - a.a. 2009/2010 Lessico TS nel GRADIT 74 I. Chiari, Linguistica computazionale - a.a. 2009/2010 37 12/03/2010 Dizionari di frequenza 75 Liste di frequenza, LIP I. Chiari, Linguistica computazionale - a.a. 2009/2010 Dizionari di frequenza 76 Usando il computer, si possono raccogliere grandi quantità di testi in formato elettronico (un corpus) e riordinare le parole contenute: per es. ordine alfabetico, ordine alfabetico inverso, ordine di frequenza LIF - Lessico di frequenza della lingua italiana contemporanea: 500.000 parole (scritte) circa 5.000 lemmi in ordine alfabetico e in ordine di frequenza – Il corpus del LIF contiene testi teatrali (T) romanzi (R) copioni cinematografici (C) periodici (P) sussidiari (S) – Le parole più frequenti dell‟italiano sono: il, di, egli, a, essere, e, uno, in, che, non, io, avere, da ecc. – Le liste di frequenza possono aiutare nello studio delle lingue – Le prime 100 parole più frequenti arrivano a coprire il 60% di qualsiasi testo – Le prime 1.000, l’85% – Le prime 4.000, il 97% I. Chiari, Linguistica computazionale - a.a. 2009/2010 38 12/03/2010 Liste di frequenza 77 Forma • elenco di tutte le forme (type, tipi di parole) • indici di frequenza (ossia il numero di occorrenze nel testo) • frequenza relativa, (Fw/N) • rapporto tra le occorrenze della singola parola (Fw) e il numero di parole testuali del corpus (N) • frequenza relativa normalizzata Presentazione • per frequenza decrescente • Al primo posto compare la parola testuale più frequente, all‟ultimo la meno frequente. • La forma che ha frequenza maggiore, e che si trova al primo posto, si dice di primo rango. parole vuote • e, di, che, a, il, in • parole grammaticali parole piene • Don, era • sostantivi, verbi, aggettivi, avverbi I. Chiari, Linguistica computazionale - a.a. 2009/2010 Lista di frequenza del primo capitolo dei Promessi Sposi 78 255 195 162 146 109 100 100 97 80 78 55 53 47 44 42 4,1255% e 3,1548% di 2,6209% che 2,3621% a 1,7635% il 1,6179% in 1,6179% un 1,5693% non 1,2943% la 1,2619% per 0,8898% le 0,8575% con 0,7604% si 0,7119% del 0,6795% i 41 39 38 38 34 31 28 28 26 25 24 24 24 23 22 0,6633% come 0,6310% una 0,6148% ma 0,6148% più 0,5501% o 0,5015% gli 0,4530% don 0,4530% da 0,4206% due 0,4045% se 0,3883% poi 0,3883% della 0,3883% era 0,3721% al 0,3559% abbondio I Frequenze assolute II frequenza relative III tipi di parole I. Chiari, Linguistica computazionale - a.a. 2009/2010 39 12/03/2010 4.4 Dizionari di frequenza 79 LIP - Lessico di frequenza dell‟italiano parlato: dimensioni simili al LIF Raccoglie campioni di «italiano parlato» in quattro città: Milano, Firenze, Roma e Napoli Vari tipi di interazioni linguistiche: scambi faccia a faccia conversazioni telefoniche dibattiti lezioni conferenze trasmissioni radio e TV Il vocabolario del «parlato» per il 97% è costituito da parole ben radicate nell‟italiano Anglicismi ed esotismi sono minimi Il parlato è relativamente povero dal punto di vista lessicale rispetto allo scritto Non sembra esistere un lessico specifico del parlato molto diverso dal lessico della lingua scritta I. Chiari, Linguistica computazionale - a.a. 2009/2010 Lemmi LIP in ordine alfabetico 80 I. Chiari, Linguistica computazionale - a.a. 2009/2010 40 12/03/2010 Storia della lessicografia italiana 81 I. Chiari, Linguistica computazionale - a.a. 2009/2010 STORIA DEI DIZIONARI ITALIANI 82 VOCABOLARIO DEGLI ACCADEMICI DELLA CRUSCA (1612 1729/38) Francesco D‟Alberti di Villanuova (1797-1805) Primo dizionario storico in Europa Obiettivo: „fissare‟ la lingua 1612: 30000 voci Primo dizionario a registrare termini tecnici TOMMASEO-BELLINI (1865-1879) Ultimo vocabolario storico disponibile Collaboratori molto validi per voci specialistiche Etimologie spesso fantasiose da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 41 12/03/2010 GRANDE DIZIONARIO DELLA LINGUA ITALIANA 83 Nato come aggiornamento del Tommaseo Edito da Battaglia , poi Barberi Squarotti Statistiche: Tempi di realizzazione: 19612006 185 594 voci, 21 volumi, 22 000 pagine Metodi: Registra tutte le parole e le varianti Citazioni da 14 000 autori da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) Informatica e dizionari 84 Uso di collezioni di testi (CORPORA) in formato elettronico per identificare LEMMI COLLOCAZIONI USI dei lemmi (CONCORDANZE) da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 42 12/03/2010 Dizionari elettronici 85 Il passaggio dalla forma cartacea alla forma elettronica ha rivoluzionato molti aspetti della lessicografia e dell‟uso dei dizionari Molte limitazioni di spazio si sono ridotte La ricerca di voci non piu‟ ristretta all‟ordine alfabetico Sono apparsi dizionari la cui organizzazione riflette l‟organizzazione del LESSICO MENTALE (WordNet) da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 86 Fine ? O la Storia dei dizionari inglesi I. Chiari, Linguistica computazionale - a.a. 2009/2010 43 12/03/2010 87 Storia della lessicografia inglese I. Chiari, Linguistica computazionale - a.a. 2009/2010 STORIA DEI DIZIONARI INGLESI, 1: GLOSSARI 88 Primi `dizionari‟: i GLOSSARI medievali raccolte di GLOSSE in Old English di parole latine, tipicamente scritte da monaci Primi dizionari sono bilingui! Uno dei piu‟ noti: The London Vocabulary di Ǽlfric (XI secolo) da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 44 12/03/2010 STORIA DEI DIZIONARI INGLESI, 2: `HARD WORDS‟ 89 Rinascimento: cominciano i „prestiti‟ da altre lingue (non solo Latino, ma anche Francese, Greco, Italiano) Nasce la necessita‟ di aver spiegazioni su `hard words‟: neologismi introdotti di recente, con cui un „uneducated reader‟ puo‟ non avere familiarita‟ Esempio piu‟ noto di risorsa di questo tipo: Robert Cawdrey, A Table Alphabeticall, 1604 2500 parole da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) DA `A TABLE ALPHABETICALL‟ DI CAWDREY 90 § Abandon, cast away, or yeelde up, to leave, or forsake Abash, blush abba, father § abbesse, abbatesse, Mistris of a Nunnerie, comforters of others § abbettors, counsellors …. Apocrypha (g), not of authoritie, a thing hidden, whose originall is not knowne da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 45 12/03/2010 DA „HARD WORDS‟ A „ALL WORDS‟ 91 John Bullokar, AN ENGLISH EXPOSITOR (1616) Cockeram‟s THE ENGLISH DICTIONARIE (1623) Prime etimologie: Thomas Blount (1656), Stephen Skinner (1671) A NEW ENGLISH DICTIONARY, di `J.K.‟ (1702) Primo ad essere chiamato „DICTIONARY‟ Anche `vulgar words‟ primo tentativo di produrre un dizionario completo (28 000 lemmi) Per artigiani e mercanti Nathaniel Bailey, AN UNIVERSAL ETYMOLOGICAL ENGLISH DICTIONARY sia completezza (40000 parole prima edizione, poi 50000) che etimologia da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) CORREGGERE E `BLOCCARE‟ („ASCERTAINING‟) LA LINGUA 92 XVII secolo: molta preoccupazione che un numero eccessivo di parole straniere venisse assorbito nell‟Inglese Si guardo‟ con favore al modello dell‟ Académie Francaise, fondata nel 1635, e che produsse tra il 1639 ed il 1694 il DICTIONNAIRE DE L‟ACADEMIE FRANCAISE con l‟intenzione di „codificare‟ e `ripulire‟ il linguaggio Cfr. Dizionario degli Accademici della Crusca Jonathan Swift: A PROPOSAL FOR CORRECTING, IMPROVING AND ASCERTAINING (= FIX) THE ENGLISH LANGUAGE (1712) da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 46 12/03/2010 SAMUEL JOHNSON (1709-1784) 93 When we see men grow old and die at a certain time one after another, from century to century, we laugh at the elixir that promises to prolong life to a thousand years; and with equal justice may the lexicographer be derided, who being able to produce no example of a nation that has preserved their words and phrases from mutability; shall imagine that his dictionary can embalm the language, and secure it from corruption and decay … (Preface al Dictionary of the English Language, 1755) da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) THE DICTIONARY OF THE ENGLISH LANGUAGE 94 Prodotto tra il 1746 ed il 1755 con 6 assistenti 42773 lemmi Primo dizionario sviluppato secondo metodi lessicografici moderni; la creazione del dizionario sollevo‟ problemi ancora attuali per la lessicografia da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 47 12/03/2010 SAMUEL JOHNSON: PLAN FOR A DICTIONARY OF THE ENGLISH LANGUAGE (1747) 95 Il lavoro comincio‟ con lo sviluppo di principi da seguire Criteri di SELEZIONE ORTOGRAFIA e PRONUNCIA ETIMOLOGIA ANALOGY (inflessione) e SYNTAX INTERPRETATION (= definizione) CITAZIONI con AUTORE da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) METODOLOGIA 96 Punto di partenza: dizionario di Bailey Identificazione di nuove voci: lettura di autori ammirati da Johnson Ogni volta che trovava un uso „corretto‟ di una parola, sottolineava e marcava la citazione; un assistente avrebbe creato uno SLIP Gli slip con citazioni (114000 in tutto) poi ordinati in modo alfabetico A partire dal 1749, Johnson comincio‟ ad identificare i sensi e scrivere le definizioni Primo volume 1753 da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 48 12/03/2010 RISULTATO 97 da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) THE NEW ENGLISH DICTIONARY 98 L‟Oxford English Dictionary e‟ quanto di piu‟ vicino ci sia ad un „record ufficiale‟ dell‟Inglese (Britannico) Obiettivo: creare un dizionario le cui definizioni fossero basate sui criteri „scientifici‟ sviluppati nella nuova scienza della filologia Sotto gli auspici della Philological Society Prima edizione richiese 70 anni (tra il 1858 ed il 1928) e 5 „editors‟ Editor chiave: JAMES MURRAY da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 49 12/03/2010 THE NEW ENGLISH DICTIONARY: METODO 99 Principio: “to furnish an adequate account of the meaning, origin, and history of English words now in general use, or known to have been in general use at any time during the last seven hundred years” (dalla prefazione di Murray al volume I, 1888) Basato sul lavoro di MIGLIAIA di volontari (READERS) che produssero 5 millioni di slips Tra cui D. W. C. Minor, paziente schizofrenico da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) THE NEW ENGLISH DICTIONARY: LA PRIMA EDIZIONE 100 10 volumi 252 000 voci, 414 000 definizioni da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 50 12/03/2010 SVILUPPI SUCCESSIVI 101 Primo supplemento (4 volumi, 1955 1986) Distinzione main / subordinate scompare Molte subject labels aggiuntive OED2 (1984 1989) Versione elettronica su CD-ROM 20 volumi, 500000 definizioni, OED3 (1993 2010): www.oed.com da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU ) 51