Semantica e lessico

Transcript

Semantica e lessico
12/03/2010
I. Chiari, Linguistica computazionale - a.a. 2009/2010
1
SEMANTICA E LESSICO
Per la lessicografia contemporanea
Definizioni Discipline
2




Vocabolario: insieme delle parole di una lingua o parte di esso;
insieme di parole che parlanti specifici di una lingua possiedono;
nell‟uso comune è l‟opera che raccoglie il lessico; in questa
accezione è sinonimo di dizionario
Lessicografia: tecnica di composizione dei dizionari
Semantica: settore del lessico relativo al significato e ai suoi
meccanismi
Parola: definizione problematica. Spesso usata con il significato di
voce,vocabolo.La definizione più diffusa di parola è “segmento
della catena parlata o del testo scritto tale che non sia
interrompibile da altri elementi, che sia mobile, che possa comparire
da solo e che abbia un significato”
 (Beccaria, G. (1994). Dizionario di linguistica e di filologia, metrica, retorica. Torino, Einaudi)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
1
12/03/2010
vocabolario
3
 Da
T. De Mauro, La fabbrica delle parole, UTET, 2000.
I. Chiari, Linguistica computazionale - a.a. 2009/2010
lessico
4
Da T. De Mauro, La fabbrica delle
parole, UTET, 2000.
I. Chiari, Linguistica computazionale - a.a. 2009/2010
2
12/03/2010
dizionario
5

Da T. De Mauro, La fabbrica delle parole, UTET, 2000.
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Terminologia della lessicologia
6
Parole chiave
• LESSEMA
• termine adoperato in lessicologia strutturale e “indica l‟unità lessicale a due
facce (significante e significato) appartenente al piano della langue, del sistema
linguistico e come tale astratta “
• LEMMA
• Forma di citazione del lessema nel dizionario
• TERMINE
• parola appartenente a un linguaggio settoriale, ad un ambito definito,avente un
significato preciso e univoco (es. termine regionale, dialettale)
• PAROLA TESTUALE o occorrenza
• PAROLA GRAFICA
• Sequenza di caratteri alfabetici compresi tra due spazi o segni di interpunzione
• POLIREMATICA
I. Chiari, Linguistica computazionale - a.a. 2009/2010
3
12/03/2010
TERMINOLOGIA
7

PAROLA (Inglese: WORD)


Un‟unita‟ linguistica a cui sono associate una funzione
grammaticale ed un significato (Marello)
FORME di parola / parole testuali

Varianti morfologiche di una parola con funzioni
grammaticali anche diverse:



BELLO, BELLISSIMO
DOTTORE, DOTTORI
MANGERO‟, MANGIARE
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
TERMINOLOGIA (2)
8

VOCE di un dizionario (Inglese: ENTRY)


Le informazioni date da un dizionario su una parola
indicizzata da un certo LEMMA
LEMMA
La forma di parola „canonica‟ usata per rappresentare la
parola nel dizionario (per esempio, per deciderne la
posizione alfabetica)
 Per esempio,



DOTTORE per il sostantivo con forme DOTTORE, DOTTORI
MANGIARE per il verbo con forme MANGIO / MANGIERO‟ /
MANGIO‟
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
4
12/03/2010
Lessemi e parole testuali
9
 Quel ramo del lago di Como, che volge a mezzogiorno,
tra due catene non interrotte di monti, tutto a seni e a golfi, a
seconda dello sporgere e del rientrare di quelli, vien, quasi a
un tratto, a ristringersi, e a prender corso e figura di fiume,
tra un promontorio a destra, e un'ampia costiera dall'altra
parte; e il ponte, che ivi congiunge le due rive, par che renda
ancor più sensibile all'occhio questa trasformazione, e segni
il punto in cui il lago cessa, e l'Adda rincomincia, per ripigliar poi nome di lago dove le rive, allontanandosi di nuovo,
lascian l'acqua distendersi e rallentarsi in nuovi golfi e in
nuovi seni.
Il testo contiene 116 parole
testuali/grafiche (tokens)
• la congiunzione e occorre 10 volte,
• la preposizione a e di, rispettivamente 8 e 6
volte, ecc.
76 tipi di parole (types)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Dizionari ed enciclopedie
10

“Dictionaries are about words”


“Encyclopedias are about knowledge”


La voce di un dizionario sulla parola „TOAD‟ ne da‟ forma e
pronuncia, etimologia, grammatica, uso, e significati
Un articolo di enciclopedia su “TOAD” e‟ un riassunto piu‟ o
meno breve della conoscenza sull‟argomento
ovviamente ci sono aspetti in comune

da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
5
12/03/2010
UN ESEMPIO DI VOCE IN DIZIONARIO
11
toad /təųd/ n.
1 any froglike amphibian of the family Bufonidae, esp. of
the genus Bufo, breeding in water but living chiefly on
land.
2 any of various similar tailless amphibians.
3 a repulsive or detestable person.
toadish adj.
[Old English tadige, tadde, tada, of unknown origin]
(COD 9)
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
UN ESEMPIO DI VOCE IN
ENCICLOPEDIA
12
TOAD
The true toads are amphibians in the Bufonidae family. A number of species in other
families of Amphibia are commonly referred to as toads. This is because the
characteristics that are popularly used to distinguish frogs from toads are not quite the
same as those used for scientific classification.
The type species of the family Bufonidae is the Common toad, Bufo bufo, and around it
cluster a large number of species of the same genus, and some smaller genera. B. bufo
is a tailless amphibian of stout build, with a warty skin, and any animal that shares
these characteristics is liable to be called a toad, regardless of its location in formal
taxonomy.
That the shape of the body is not a safe guide in judging of anuran groups is shown by
some true frogs (Rana), which have adapted to burrowing habits, and are absolutely
toad-like. The Bufonidae include terrestrial, burrowing, thoroughly aquatic and arboreal
types; Rhinophrynus, of Mexico, may be described as an anteater.
Almost all toads have two lumps near the head, called the parotid glands. These glands
da Poesio, diapositive di Lessicografia
contain poison, which oozes out if the toad is angered. Some, like cane toads, are more
(http://www.dit.unitn.it/~poesio/Teach/IU)
poisonous than others.
I. Chiari, Linguistica computazionale - a.a. 2009/2010
6
12/03/2010
SEMANTICA E LESSICO
13
Principi di base
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Semantica lessicale
Ambiguità del significato
14

Ambiguità: alcuni lessemi hanno più di un significato (più di un
riferimento)


Polisemia: un lessema con più significati in qualche misura collegati fra di
loro

esecuzione:
1. „realizzazione di un brano musicale‟
2. „messa in atto di una pena‟
1. „arto superiore‟
2. „quantità di vernice data su un muro'

mano:
Omonimia: un lessema con più significati non collegati fra di loro (in realtà
si tratta di lessemi diversi)

„SCANNARE‟ come „fare a pezzi‟ / „italianizzazione di TO SCAN‟; GRU come uccello /
macchina per sollevare pesi

spesso:

letto:
1. „Agg., denso‟
2. „Avv., frequentemente‟
1. „nome, mobile per dormire‟
2. „p.pass., voce del verbo leggere'
I. Chiari, Linguistica computazionale - a.a. 2009/2010
7
12/03/2010
Ancora sulla polisemia
15

La polisemia di una parola può essere causata dal contesto
sintattico in cui si trova:
(1) Gianni si è dimenticato di aver chiuso la porta

ricaviamo l‟informazione che Gianni aveva chiuso la porta
«presupposizione di fattività»
(2) Gianni si è dimenticato di chiudere la porta

ricaviamo l‟informazione contraria, ossia che Gianni non aveva chiuso la
porta
(3) Gianni ha cotto le uova

le uova esistevano anche prima che Gianni le cuocesse,
«cambiamento di stato», «presupposizione di esistenza»
(4) Gianni ha cotto una frittata

Gianni ha «prodotto» qualcosa di nuovo, la frittata esiste solo perché
Gianni l‟ha cotta
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Estensioni del significato:
metafora e metonimia
16

La polisemia può anche essere causata da metafora e metonimia

Metafora: uso traslato di una parola, sulla base di una «somiglianza» tra il
significato «fondamentale» e il significato traslato
vite 1: „pianta, con viticci attorcigliati‟ =>
vite 2: „utensile, con filettatura‟
(la filettatura della vite 2 assomiglia al viticcio della vite 1)

Metonimia: consiste nell‟estendere il significato di una parola a un altro
connesso al primo per «contiguità»
mano 1: „arto‟
=>
mano 2: „turno nel gioco di carte‟
mano 3: „quantità di vernice data‟
(è con la mano che si gioca a carte o si vernicia)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
8
12/03/2010
Relazioni di significato
17

Sinonimia: lessemi diversi con lo stesso significato
mano
sovente

(„turno di gioco‟)
Antonimia: lessemi che esprimono significati opposti

Antonimi contrari:



= manche
= smazzata
= frequentemente = spesso
bianco vs. nero, caldo vs. freddo
ammettono entità intermedie (per es. grigio, tiepido)
Antonimi contraddittori: scapolo vs. sposato, vero vs. falso
Iponimia: il sign. di un lessema è «incluso» in quello di un altro
lessema
airone «iponimo di» uccello
uccello «iponimo di» animale

Iperonimia: il sign. di un lessema «include» quello di un altro
lessema
animale «iperonimo di» uccello
uccello «iperonimo di» airone
I. Chiari, Linguistica computazionale - a.a. 2009/2010
SINONIMIA
18

Origini:

Words from different strata:

Dialect difference



Biscuit / cookie; Lorry / truck
Non e‟ mai perfetta:


Italiano: PAPA‟ vs. PADRE / PEDALINO vs. CALZINO
Everything is illuminated:





Begin vs commence (Jackson p. 17)
`harmonize‟ invece di „agree‟
„rigid‟ invece di „hard‟
„disseminate‟ invece di „spend‟
“forgetful dogs.”
Vedi: http://parole.alice.it/parole/sinonimi_e_contrari/
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
9
12/03/2010
Semantica frasale
19

L‟ipotesi più semplice: il principio di composizionalità
«il significato di una frase è il risultato della combinazione dei
significati delle parole che la compongono»

Funziona in molti casi, ma a volte risulta troppo restrittivo:
1.
2.
le frasi spesso contengono «qualcosa in più» rispetto ai singoli
elementi che le compongono
alcune combinazioni di parole hanno un significato che non è
ricavabile dalle singole parole da cui sono costituite

lessicalizzazioni (espressioni idiomatiche, polirematiche)
tagliare la corda
sbarcare il lunario
essere al verde
I. Chiari, Linguistica computazionale - a.a. 2009/2010
20
DIZIONARI
Costruzione, caratteristiche, prospettive
I. Chiari, Linguistica computazionale - a.a. 2009/2010
10
12/03/2010
2. Dizionari
21

Un dizionario non corrisponde al «lessico mentale»:

La lessicografia cerca di raccogliere l’insieme delle parole usate da
tutta una comunità linguistica, anche dal punto di vista diacronico

La lessicografia tradizionale non cerca di descrivere la competenza
lessicale di un parlante



Un dizionario si pone a livello della langue saussuriana
Un dizionario non rappresenta la competenza chomskiana
Un dizionario è costituito da entrate lessicali o lemmi


è necessario lemmatizzare le parole:
(per es. avremmo amato, amando, amavamo, amammo ecc. vanno
tutte ricondotte al lemma amare)
per ogni lemma troviamo altre informazioni

trascrizione fonetica o fonologica, etimologia, categoria lessicale, esempi
di utilizzo e varie accezioni semantiche
I. Chiari, Linguistica computazionale - a.a. 2009/2010
2.2 Lessicalizzazioni
22

In un dizionario trovano posto tutte le forme imprevedibili,
che hanno forme o significati idiosincratici (non formate
tramite regole):


parole semplici: casa, libro, felice
forme lessicalizzate: (espressioni il cui significato non è desumibile
dalla somma dei significati delle parti)




parole complesse non-trasparenti: dirigibile, volante
costruzioni polirematiche: tagliare la corda, nontiscordardimé
sigle, acronimi, parole «macedonia», abbreviazioni:
CGIL, polfer, racc.
gli altri tipi di parole vengono invece «costruiti» tramite le regole
della morfologia, e non è necessario scriverle esplicitamente nel
dizionario
I. Chiari, Linguistica computazionale - a.a. 2009/2010
11
12/03/2010
Stratificazioni dell‟italiano:
uso e registro stilistico nei dizionari
23

I livelli d’uso nel DISC:








antico
(aderbare, adunazione)
antiquato (accorruomo, dappoiché)
dialettale (cadrega, ceraso)
letterario (accadimento, gemebondo)
non comune (accarezzevole, acquiescere)
regionale (abbacchio, appizzare, bagigi)
toscano
(babbione, berciare, bischeraggio)
I registri stilistici nel DISC:







familiare (acciderba, aggeggiare, appioppare, baluba)
gergale
(attacchinaggio, cuccare, fico, matusa, sfiga)
ironico
(ambientino, genietto, lentocrazia, santerello)
popolare (ammucchiata, arruffianamento, buggerare)
scherzoso (cervellone, comprendonio, fantastilione)
spregiativo (canzonettaro, galoppino, mangiapolenta)
volgare
(bagascia, incazzato, leccaculo, stronzata)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Stratificazioni dell‟italiano:
frequenza d‟uso
24


I dizionari più recenti introducono indicazioni sulla
frequenza d‟uso delle parole
Per esempio, il De Mauro - Paravia usa queste categorie:
FO: fondamentale
(vocaboli frequentissimi, come a, di, il, faccia, andare; da soli
coprono il 90% dello scritto o del parlato)
AU: alto uso/frequenza
(parole come bensì, viso, recarsi che coprono all‟incirca il
6-8% dei testi e discorsi, note a chi ha un livello almeno medio di
istruzione)
AD: di alta disponibilità
(relativamente rari nel parlare o scrivere, ma legati a oggetti o atti
della vita quotidiana, come coperchio, furgone, garza, pantofola)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
12
12/03/2010
Il vocabolario di base (De Mauro 1980)
25
FO : fondamentale; tra i lemmi principali, sono così marcati 2049
vocaboli di altissima frequenza, le cui occorrenze costituiscono circa
il 90% delle occorrenze lessicali nell‟insieme di tutti i testi scritti o
discorsi parlati;
AU : di alto uso; sono così marcati 2576 vocaboli di alta frequenza,
le cui occorrenze costituiscono un altro 6% circa delle occorrenze
lessicali nell‟insieme di tutti i testi scritti o discorsi parlati;
AD : di alta disponibilità; sono così marcati 1897 vocaboli,
relativamente rari nel parlare o scrivere, ma tutti ben noti perché
legati ad atti e oggetti di grande rilevanza nella vita quotidiana
(alluce, batuffolo, carrozzeria, dogana, ecc.).
I vocaboli fondamentali, di alto uso e di alta disponibilità
(quest‟ultimo è il gruppo più esposto al variare della cultura
materiale e richiede aggiornamenti relativamente frequenti)
costituiscono nell‟insieme il “vocabolario di base”
(De Mauro 1999a, XX).
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Stratificazione del lessico
26
LS
Vocabolario
comune
Vocabolario
Di base
I. Chiari, Linguistica computazionale - a.a. 2009/2010
13
12/03/2010
Vocabolario COMUNE (Gradit)
27
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Vocabolario tecnico-specialistico
28
I. Chiari, Linguistica computazionale - a.a. 2009/2010
14
12/03/2010
Letterario, regionale, dialettale
29
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Esotismi, basso uso, obsoleti
30
I. Chiari, Linguistica computazionale - a.a. 2009/2010
15
12/03/2010
COMPILARE UN DIZIONARIO
31

La compilazione di un dizionario comporta tre
aspetti:
 Scelta
delle voci
 Identificazione dei testi
 Scrittura delle voci
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
SCELTA DELLE VOCI
32

Tre fonti primarie:
 Dizionari
precedenti (non si parte da zero)
 Citation file (= archivio di citazioni della casa editrice)
 (Vedi
 Nuovi
sotto per quel che riguarda Dr. Johnson‟s / OED)
testi
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
16
12/03/2010
RESTRIZIONI
33

Costo
 Della
creazione (OED: tra il 1858 ed il 1928)
 Del volume

Spazio
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
ORGANIZZAZIONE
34

Le voci in un dizionario possono essere organizzate
 In
ordine ALFABETICO
 In ordine TEMATICO
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
17
12/03/2010
35
Le voci del dizionario
Come sono fatte, cosa contengono
I. Chiari, Linguistica computazionale - a.a. 2009/2010
COSA SI TROVA IN UNA VOCE
36







Il LEMMA della parola
Le altre FORME (ortografia e pronuncia)
La loro STRUTTURA (da quali morfemi sono composti)
Informazioni GRAMMATICALI
Esempi di USO
ETIMOLOGIA
Il SIGNIFICATO della parola (compresi sinonimi)
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
18
12/03/2010
TRE TIPI DI PAROLE
37


Main words
Subordinate words
 Afforse,
obs. variant of AFFORCE
 Afforst, obs. variant of ATHIRST

Composite
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
STRUTTURA DELLE VOCI
38

IDENTIFICATION
 Spelling
(con alternanze): Jowl, jole
 `Citizenship in the language‟: Kursaal
 Pronunciation (non ancora IPA)

MORPHOLOGY
 Form


history of the word
SIGNIFICATION
ILLUSTRATIVE QUOTATIONS
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
19
12/03/2010
FORME DI PAROLA
39

PRONUNCIA
 Fonemi,
oggigiorno solitamente IPA /təųd/
 Prosodia (accento)

ORTOGRAFIA
 Sillabe
 Varianti
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
INFORMAZIONI GRAMMATICALI
40

Morfologia
Verbi: inflessioni
 Nomi: forma del plurale

 dito

 dita
Sintassi
Parte del discorso (con restrizioni: awake predicative (the
baby is awake) ma non attributive (*the awake baby)
 Verbi: transitivo / intransitivo, quali tipi di preposizioni, etc.
 Classe flessionale

Modificata da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
20
12/03/2010
DESCRIZIONE DELL‟USO
41



Fascia d‟uso (su analisi di corpora); marca
Spesso in forma di citazioni (vedi esempi successivi)
Espressioni comuni (collocazioni)
Modificata dada Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
COLLOCAZIONI
42


Frasi fatte: Studente lavoratore, padre padrone,
governo ombra
Preferenze d‟uso:
 Il
sostantivo ban tipicamente modificato dagli aggettivi
total o complete, associato con il verbo impose, etc.
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
21
12/03/2010
SIGNIFICATO
43


Una delle funzioni piu‟ importanti di un dizionario e‟
caratterizzare le ACCEZIONI di una parola
attraverso DEFINIZIONI
Probabilmente l‟aspetto piu‟ difficile della
lessicografia
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
IL PROBLEMA DEL SIGNIFICATO
44
Come possiamo caratterizzare
questo significato?
Come minimo, come trovare un
modo per caratterizzare questo
significato che ci permetta di
distinguere tra queste accezioni
diverse?
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
22
12/03/2010
SIGNIFICATO IN UN DIZIONARIO
45

RIFERIMENTO
OK: „bicicletta‟ / `tromba‟
 Piu‟ difficile: „deferenza‟ / „ridicolo‟


RELAZIONI SEMANTICHE
Sinonimia
Antonimia
 Iponimia



CONNOTAZIONE


inspire vs. fundamentalist
COLLOCAZIONI
da Poesio, diapositive di Lessicografia
(http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Significato, senso, accezioni (GRADIT)
46
I. Chiari, Linguistica computazionale - a.a. 2009/2010
23
12/03/2010
47
ESEMPI DI DEFINIZIONI
Tutti tratti dal GRADIT
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Abbracciare1 e 2
48
I. Chiari, Linguistica computazionale - a.a. 2009/2010
24
12/03/2010
circostanza
49
I. Chiari, Linguistica computazionale - a.a. 2009/2010
palazzo
50
I. Chiari, Linguistica computazionale - a.a. 2009/2010
25
12/03/2010
fortuna
51
I. Chiari, Linguistica computazionale - a.a. 2009/2010
guadagnare
52
I. Chiari, Linguistica computazionale - a.a. 2009/2010
26
12/03/2010
nutrire
53
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Fare
54
I. Chiari, Linguistica computazionale - a.a. 2009/2010
27
12/03/2010
Parole grammaticali
55
I. Chiari, Linguistica computazionale - a.a. 2009/2010
56
I. Chiari, Linguistica computazionale - a.a. 2009/2010
28
12/03/2010
LINGUAGGI SETTORIALI: folle
57
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
L‟esempio di forza
58
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
29
12/03/2010
Frizione e candela
59
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
7. definizioni analogiche
60

Soprattutto per la formazione di polirematiche
basate su meccanismi metaforici
 (elettrodo
a baffo di gatto, valvole a farfalla, cellule a
palizzata, a bastoncello, a fiamma)
Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)
30
12/03/2010
61
Tipi di dizionari
Caratteristiche ed esempi
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Differenze tra dizionari
62

Il contenuto delle voci cambia a seconda de
 Il
TIPO di dizionario (monolingue / bilingue, eta‟
dell‟utente, livello di specializzazione)
 La FUNZIONE (d‟uso, di riferimento)
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
31
12/03/2010
TIPI DI DIZIONARI
63

Dizionari `general purpose‟
=
`desk‟ o „concise‟
 Dizionari „di riferimento‟
 Dizionari per learners


Dizionari specialistici
Dizionari BILINGUI
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
DIZIONARI ONOMASIOLOGICI/ TESAURI
64

Dizionario ONOMASIOLOGICO: voci raggruppate
per SOGGETTI invece che in ordine alfabetico


I dizionari Italiani piu‟ antichi sono in questa forma (Alunno,
1548)
TESAURI: dizionari organizzati per RELAZIONI
LESSICALI e tipicamente strutturati in modo
CONCETTUALE

Peter Mark Roget, THESAURUS OF ENGLISH WORDS AND
PHRASES (1852)
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
32
12/03/2010
ALTRI TIPI DI DIZIONARI
65

Dizionari ETIMOLOGICI
Concentra solamente su derivazione delle parole
 LEI Lessico Epistemologico Italiano (Max Pfister, in
completamento)
 Pianigiani: http://www.etimo.it/


Dizionari dei SINONIMI e dei CONTRARI

Tommaseo, 1830
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
GRADIT De Mauro 1999: ca 360.000
lemmi e sottolemmi
66


260.709 lemmi monorematici
67.678 polirematiche (130.000 lemmi con
associate polirematiche)
I. Chiari, Linguistica computazionale - a.a. 2009/2010
33
12/03/2010
Criteri ordinamento accezioni e
quantità
67
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Legami tra accezioni
68
I. Chiari, Linguistica computazionale - a.a. 2009/2010
34
12/03/2010
Definizioni e significati
69
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Struttura delle definizioni
70
I. Chiari, Linguistica computazionale - a.a. 2009/2010
35
12/03/2010
Tipologie di voci
71
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Nomi di piante e animali
72
I. Chiari, Linguistica computazionale - a.a. 2009/2010
36
12/03/2010
Sinonimi nel GRADIT
73
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Lessico TS nel GRADIT
74
I. Chiari, Linguistica computazionale - a.a. 2009/2010
37
12/03/2010
Dizionari di frequenza
75
Liste di frequenza, LIP
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Dizionari di frequenza
76

Usando il computer, si possono raccogliere grandi quantità di testi in formato elettronico (un
corpus) e riordinare le parole contenute:


per es. ordine alfabetico, ordine alfabetico inverso, ordine di frequenza
LIF - Lessico di frequenza della lingua italiana contemporanea:
500.000 parole (scritte)
circa 5.000 lemmi in ordine alfabetico e in ordine di frequenza
– Il corpus del LIF contiene
testi teatrali (T)
romanzi (R)
copioni cinematografici (C)
periodici (P)
sussidiari (S)
– Le parole più frequenti dell‟italiano sono:
il, di, egli, a, essere, e, uno, in, che, non, io, avere, da ecc.
– Le liste di frequenza possono aiutare nello studio delle lingue
– Le prime 100 parole più frequenti arrivano a coprire il 60% di qualsiasi testo
– Le prime 1.000, l’85%
– Le prime 4.000, il 97%
I. Chiari, Linguistica computazionale - a.a. 2009/2010
38
12/03/2010
Liste di frequenza
77
Forma
• elenco di tutte le forme (type, tipi di parole)
• indici di frequenza (ossia il numero di occorrenze nel testo)
• frequenza relativa, (Fw/N)
• rapporto tra le occorrenze della singola parola (Fw) e il numero di parole testuali del corpus (N)
• frequenza relativa normalizzata
Presentazione
• per frequenza decrescente
• Al primo posto compare la parola testuale più frequente, all‟ultimo la meno frequente.
• La forma che ha frequenza maggiore, e che si trova al primo posto, si dice di primo rango.
parole vuote
• e, di, che, a, il, in
• parole grammaticali
parole piene
• Don, era
• sostantivi, verbi, aggettivi, avverbi
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Lista di frequenza del primo capitolo
dei Promessi Sposi
78
255
195
162
146
109
100
100
97
80
78
55
53
47
44
42
4,1255% e
3,1548% di
2,6209% che
2,3621% a
1,7635% il
1,6179% in
1,6179% un
1,5693% non
1,2943% la
1,2619% per
0,8898% le
0,8575% con
0,7604% si
0,7119% del
0,6795% i
41
39
38
38
34
31
28
28
26
25
24
24
24
23
22
0,6633% come
0,6310% una
0,6148% ma
0,6148% più
0,5501% o
0,5015% gli
0,4530% don
0,4530% da
0,4206% due
0,4045% se
0,3883% poi
0,3883% della
0,3883% era
0,3721% al
0,3559% abbondio
I Frequenze assolute II frequenza relative III tipi di parole
I. Chiari, Linguistica computazionale - a.a. 2009/2010
39
12/03/2010
4.4 Dizionari di frequenza
79


LIP - Lessico di frequenza dell‟italiano parlato:
dimensioni simili al LIF
Raccoglie campioni di «italiano parlato» in quattro città:


Milano, Firenze, Roma e Napoli
Vari tipi di interazioni linguistiche:







scambi faccia a faccia
conversazioni telefoniche
dibattiti
lezioni
conferenze
trasmissioni radio e TV
Il vocabolario del «parlato» per il 97% è costituito da parole ben radicate
nell‟italiano



Anglicismi ed esotismi sono minimi
Il parlato è relativamente povero dal punto di vista lessicale rispetto allo scritto
Non sembra esistere un lessico specifico del parlato molto diverso dal lessico della lingua
scritta
I. Chiari, Linguistica computazionale - a.a. 2009/2010
Lemmi LIP in ordine alfabetico
80
I. Chiari, Linguistica computazionale - a.a. 2009/2010
40
12/03/2010
Storia della lessicografia italiana
81
I. Chiari, Linguistica computazionale - a.a. 2009/2010
STORIA DEI DIZIONARI ITALIANI
82

VOCABOLARIO DEGLI ACCADEMICI DELLA CRUSCA (1612 
1729/38)




Francesco D‟Alberti di Villanuova (1797-1805)


Primo dizionario storico in Europa
Obiettivo: „fissare‟ la lingua
1612: 30000 voci
Primo dizionario a registrare termini tecnici
TOMMASEO-BELLINI (1865-1879)



Ultimo vocabolario storico disponibile
Collaboratori molto validi per voci specialistiche
Etimologie spesso fantasiose
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
41
12/03/2010
GRANDE DIZIONARIO DELLA LINGUA
ITALIANA
83



Nato come aggiornamento del Tommaseo
Edito da Battaglia , poi Barberi Squarotti
Statistiche:
Tempi di realizzazione: 19612006
 185 594 voci, 21 volumi, 22 000 pagine


Metodi:
Registra tutte le parole e le varianti
 Citazioni da 14 000 autori

da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
Informatica e dizionari
84

Uso di collezioni di testi (CORPORA) in formato
elettronico per identificare
 LEMMI
 COLLOCAZIONI
 USI
dei lemmi (CONCORDANZE)
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
42
12/03/2010
Dizionari elettronici
85

Il passaggio dalla forma cartacea alla forma
elettronica ha rivoluzionato molti aspetti della
lessicografia e dell‟uso dei dizionari
Molte limitazioni di spazio si sono ridotte
 La ricerca di voci non piu‟ ristretta all‟ordine alfabetico
 Sono apparsi dizionari la cui organizzazione riflette
l‟organizzazione del LESSICO MENTALE (WordNet)

da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
86
Fine ?
O la Storia dei dizionari inglesi
I. Chiari, Linguistica computazionale - a.a. 2009/2010
43
12/03/2010
87
Storia della lessicografia inglese
I. Chiari, Linguistica computazionale - a.a. 2009/2010
STORIA DEI DIZIONARI INGLESI, 1:
GLOSSARI
88

Primi `dizionari‟: i GLOSSARI medievali
 raccolte
di GLOSSE in Old English di parole latine,
tipicamente scritte da monaci
 Primi dizionari sono bilingui!

Uno dei piu‟ noti: The London Vocabulary di Ǽlfric
(XI secolo)
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
44
12/03/2010
STORIA DEI DIZIONARI INGLESI, 2:
`HARD WORDS‟
89



Rinascimento: cominciano i „prestiti‟ da altre lingue
(non solo Latino, ma anche Francese, Greco, Italiano)
Nasce la necessita‟ di aver spiegazioni su `hard
words‟: neologismi introdotti di recente, con cui un
„uneducated reader‟ puo‟ non avere familiarita‟
Esempio piu‟ noto di risorsa di questo tipo: Robert
Cawdrey, A Table Alphabeticall, 1604

2500 parole
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
DA `A TABLE ALPHABETICALL‟ DI CAWDREY
90
§ Abandon, cast away, or yeelde up, to leave, or
forsake
Abash, blush
abba, father
§ abbesse, abbatesse, Mistris of a Nunnerie,
comforters of others
§ abbettors, counsellors
….
Apocrypha (g), not of authoritie, a thing hidden,
whose originall is not knowne
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
45
12/03/2010
DA „HARD WORDS‟ A „ALL WORDS‟
91


John Bullokar, AN ENGLISH EXPOSITOR (1616)
Cockeram‟s THE ENGLISH DICTIONARIE (1623)




Prime etimologie: Thomas Blount (1656), Stephen Skinner
(1671)
A NEW ENGLISH DICTIONARY, di `J.K.‟ (1702)



Primo ad essere chiamato „DICTIONARY‟
Anche `vulgar words‟
primo tentativo di produrre un dizionario completo (28 000 lemmi)
Per artigiani e mercanti
Nathaniel Bailey, AN UNIVERSAL ETYMOLOGICAL
ENGLISH DICTIONARY

sia completezza (40000 parole prima edizione, poi 50000) che
etimologia
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
CORREGGERE E `BLOCCARE‟ („ASCERTAINING‟)
LA LINGUA
92


XVII secolo: molta preoccupazione che un numero eccessivo di
parole straniere venisse assorbito nell‟Inglese
Si guardo‟ con favore al modello dell‟ Académie Francaise,
fondata nel 1635, e che produsse tra il 1639 ed il 1694 il
DICTIONNAIRE DE L‟ACADEMIE FRANCAISE con l‟intenzione di
„codificare‟ e `ripulire‟ il linguaggio


Cfr. Dizionario degli Accademici della Crusca
Jonathan Swift: A PROPOSAL FOR CORRECTING, IMPROVING
AND ASCERTAINING (= FIX) THE ENGLISH LANGUAGE (1712)
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
46
12/03/2010
SAMUEL JOHNSON
(1709-1784)
93
When we see men grow old and die at a certain time
one after another, from century to century, we laugh at
the elixir that promises to prolong life to a thousand
years; and with equal justice may the lexicographer be
derided, who being able to produce no example of a
nation that has preserved their words and phrases from
mutability; shall imagine that his dictionary can embalm
the language, and secure it from corruption and decay
… (Preface al Dictionary of the English Language, 1755)
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
THE DICTIONARY OF THE ENGLISH
LANGUAGE
94



Prodotto tra il 1746 ed il 1755 con 6 assistenti
42773 lemmi
Primo dizionario sviluppato secondo metodi
lessicografici moderni; la creazione del dizionario
sollevo‟ problemi ancora attuali per la lessicografia
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
47
12/03/2010
SAMUEL JOHNSON: PLAN FOR A DICTIONARY OF THE
ENGLISH LANGUAGE (1747)
95

Il lavoro comincio‟ con lo sviluppo di principi da
seguire
 Criteri
di SELEZIONE
 ORTOGRAFIA e PRONUNCIA
 ETIMOLOGIA
 ANALOGY (inflessione) e SYNTAX
 INTERPRETATION (= definizione)
 CITAZIONI con AUTORE
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
METODOLOGIA
96


Punto di partenza: dizionario di Bailey
Identificazione di nuove voci: lettura di autori
ammirati da Johnson
Ogni volta che trovava un uso „corretto‟ di una parola,
sottolineava e marcava la citazione; un assistente avrebbe
creato uno SLIP
 Gli slip con citazioni (114000 in tutto) poi ordinati in modo
alfabetico



A partire dal 1749, Johnson comincio‟ ad identificare
i sensi e scrivere le definizioni
Primo volume 1753
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
48
12/03/2010
RISULTATO
97
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
THE NEW ENGLISH DICTIONARY
98


L‟Oxford English Dictionary e‟ quanto di piu‟ vicino ci
sia ad un „record ufficiale‟ dell‟Inglese (Britannico)
Obiettivo: creare un dizionario le cui definizioni
fossero basate sui criteri „scientifici‟ sviluppati nella
nuova scienza della filologia


Sotto gli auspici della Philological Society
Prima edizione richiese 70 anni (tra il 1858 ed il
1928) e 5 „editors‟

Editor chiave: JAMES MURRAY
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
49
12/03/2010
THE NEW ENGLISH DICTIONARY:
METODO
99


Principio: “to furnish an adequate account of the
meaning, origin, and history of English words now in
general use, or known to have been in general use at
any time during the last seven hundred years” (dalla
prefazione di Murray al volume I, 1888)
Basato sul lavoro di MIGLIAIA di volontari (READERS)
che produssero 5 millioni di slips

Tra cui D. W. C. Minor, paziente schizofrenico
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
THE NEW ENGLISH DICTIONARY: LA PRIMA EDIZIONE
100


10 volumi
252 000 voci, 414 000 definizioni
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
50
12/03/2010
SVILUPPI SUCCESSIVI
101

Primo supplemento (4 volumi, 1955 1986)
 Distinzione
main / subordinate scompare
 Molte subject labels aggiuntive

OED2 (1984 1989)
 Versione
elettronica su CD-ROM
 20 volumi, 500000 definizioni,

OED3 (1993  2010): www.oed.com
da Poesio, diapositive di Lessicografia
I. Chiari, Linguistica computazionale - a.a. 2009/2010
(http://www.dit.unitn.it/~poesio/Teach/IU
)
51