Statistica descrittiva del testo

Transcript

Statistica descrittiva del testo
Linguistica Computazionale
Frequenze di parole
7 ottobre 2014
Statistica
terminologia di base
l 
Popolazione (collettivo)
l 
l’insieme delle entità (oggetti, individui, eventi, ecc.) che
rappresentano il dominio di interesse e di ricerca, su cui vogliamo
acquisire conoscenza
l 
l 
Unità statistiche
l 
gli elementi che compongono la popolazione
l 
l 
l’Università, ecc.
gli studenti universitari (ma anche le facoltà, i dipartimenti, ecc.)
Variabili
l 
attributi delle unità statistiche, che vengono misurate e/o rilevate
l 
l 
età, reddito, provenienza, sesso, ecc.
i valori che possono assumere le variabili si dicono modalità
l 
l 
sesso = {M, F}
età = {20, 25, ecc.}
2
Statistica
terminologia di base
l 
Le variabili sono di tipo diverso a seconda del tipo di
valori che ammettono
l 
nominali (o categoriali) – hanno un numero finito di valori
che definiscono classi a cui appartengono le unità statistiche
(sesso, provenienza, categoria grammaticale, ecc.)
l 
l 
ordinali – hanno valori (gradi) che permettono di confrontare
le unità statistiche ordinandole lungo una scala (voti degli
esami, ecc.)
l 
l 
non esistono relazioni di ordinamento tra le unità, ma solo di
appartenenza o meno alla stessa classe
differenze tra i gradi della scala non sono comparabili
intervallo (o ratio) – hanno valori che permettono di stabilire
non solo relazioni di ordinamento, ma anche di comparare le
differenze e i rapporti tra i valori (es. altezza, lunghezza in
caratteri di una parola, ecc.)
3
Statistica
terminologia di base
l 
Le unità statistiche differiscono per uno o più valori
nelle variabili
l 
gli studenti hanno diversa provenienza, diversa età, ecc.
La rilevazione del valore delle variabili delle unità statistiche
fornisce i dati a partire dai quali si cerca di acquisire
conoscenza sul comportamento della popolazione
dati
statistica
descrittiva
statistica
inferenziale
conoscenza
4
Statistica
terminologia di base
l 
In generale i dati vengono acquisiti su un sottoinsieme della
variabili
popolazione (campione)
unità
statistiche
l 
studente
sesso
provenienza
età
34356
M
Pisa
19
43553
F
Lucca
22
I dati raccolti vengono riassunti attraverso le distribuzioni di
frequenza
l 
per ogni modalità x viene specificato quante unità nel campione hanno x
(frequenza di x)
provenienza
F
modalità della
variabile
Pisa
45
Lucca
72
Viareggio
29
5
Statistica
distribuzione di frequenze
Provenienza
80
70
60
50
Frequenze
40
Provenienza
30
20
10
0
Pisa
Lucca Viareggio Livorno
Firenze Bologna
Roma
Milano
Modalità della variabile
6
Statistica e testo
l 
Popolazione linguistica
l 
l 
Campione
l 
l 
linguaggio oggetto di studio
corpus di testi della popolazione linguistica
Unità statistiche
l 
parole
l 
altre unità linguistiche possono essere scelte come
unità statistiche
§ 
morfemi, sintagmi, frasi, ecc.
7
(Word) Tokens
<t n="1">Non</t><t n="2">era</t><t n="3">un</t><t n="4">legno</t><t n="5">di</t><t n="6">lusso</
t><t n="7">ma</t><t n="8">un</t><t n="9">semplice</t><t n="10">pezzo</t><t n="11">da</t><t
n="12">catasta</t><t n="13">di</t><t n="14">quelli</t><t n="15">che</t><t n="16">d’</t><t
n="17">inverno</t><t n="18">si</t><t n=“19">mettono</t><t n="20">nelle</t><t n="21">stufe</t><t
n="22">e</t><t n="23">nei</t><t n="24">caminetti</t><t n="25">per</t><t n="26">accendere</t><t
n="27">il</t><t n="28">fuoco</t><t n=“29">e</t><t n="30">per</t><t n="31">riscaldare</t><t
n="32">le</t><t n="33">stanze</t>
Frammento 1
l 
Ogni (word) token (o parola unità) rappresenta una
distinta occorrenza di parola nel testo
l 
l 
NB: le parole sono un sottoinsieme dei token di un testo
Le parole token sono le unità statistiche
8
Attributi delle parole
l 
Gli attributi di una parola unità sono le dimensioni che la
caratterizzano e possono essere operazionalizzate come
variabili (tipicamente di natura categoriale)
l  tipo, lemma, categoria grammaticale, lunghezza in
caratteri, ecc.
attributi
ATTRIBUTO
parole
unità
parola unità
Non1
era2
un3
legno4
di5
lusso6
ma7
un8
semplice9
pezzo10
da11
catasta12
(PAROLA) TIPO
non
era
un
legno
di
lusso
ma
un
semplice
pezzo
da
catasta
LEMMA
LUN
NON
3
3
2
5
2
5
2
2
8
5
2
7
ESSE R E
UN
LEGNO
DI
LUSSO
MA
UN
SEMPLI C E
PEZZ O
DA
CATASTA
CATEGORIA
GRAMMATICAL E
AVVE R B I O
VE R B O
ARTI C O L O
NOME
PREPOSIZ I O N E
NOME
CONGIUNZIONE
ARTI C O L O
AGGETTIVO
NOME
PREPOSIZ I O N E
NOME
valori
degli
attributi
Statistica e testo
l 
l 
Gli attributi delle parole unità formano le variabili statistiche da
rilevare
Dato un attributo, contare quante parole unità ricorrono con un
certo valore v dell’attributo significa calcolare la frequenza
(assoluta) di v
l 
l 
l 
quanti tokens sono nomi? = frequenza dei nomi
quanti tokens appartengono al lemma CANE? = frequenza di CANE
(Word) type (parola tipo)
l 
classe di tutti i tokens che contengono la stessa sequenza di
caratteri
l 
l 
due parole unità appartengono allo stesso tipo se sono formalmente
indistinguibili a prescindere dalla posizione che occupano nel testo
l’individuazione del tipo di parola non tiene conto di ulteriori analisi
linguistiche (es. lemmatizzazione, ecc.)
10
Tokens e types
La porta è chiusa . La strada porta al mare .
porta
PORTA
tokens
type
PORTARE
lemmi
11
Distribuzione di frequenze di parole
l 
Frequenza (assoluta) di una parola tipo vi (|vi|)
l 
l 
numero delle occorrenze (tokens) della parola tipo vi in un testo
esempio:
l 
frequenze
nel Frammento 1, |di| = 2
parola
tipo
12
Frequenze di parole
l 
Lunghezza del corpus (|C|)
l 
numero di tokens nel testo
Se v1, …, vn sono i types del testo vale che
v1 + v2 + v3 + ... + vn = | C |
l 
In generale, le frequenze assolute di due distribuzioni, non
sono confrontabili, in quanto si riferiscono a un diverso
numero totale di unità
l 
Frequenza relativa di una parola (f(vi))
f (vi ) =
vi
|C |
normalizzata come
percentuale
vi
|C |
×100
13
Il vocabolario
l 
Vocabolario del corpus (VC)
l 
l 
numero delle parole tipo distinte (type) nel corpus
esempio
l 
l 
Nel Frammento 1, |VC| = 29
Alcune distinzioni importanti
l 
Vocabolario del corpus
l 
l 
Lessico
l 
l 
l 
insieme dei type distinti che ricorrono nel corpus
repertorio di tutte le parole possibili di quella lingua (oppure di
tutte le parole conosciute da quel parlante)
insieme potenzialmente infinito di parole
Dizionario
l 
repertorio di lemmi e forme flesse di una lingua selezionato per
qualche scopo
14
Distribuzioni di frequenze
ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione , senza
distinzione alcuna , per ragioni di razza , di colore , di sesso , di lingua , di religione , di opinione
politica o di altro genere , di origine nazionale o sociale , di ricchezza , di nascita o di altra
condizione . nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico , giuridico o
internazionale del paese o del territorio cui una persona appartiene , sia indipendente , o sottoposto
ad amministrazione fiduciaria o non autonomo , o soggetto a qualsiasi limitazione di sovranità .
|C| = 105 tokens
VC = 70 types
parola
freq.
freq. rel.
,
14
0.13
di
12
0.11
o
8
0.08
distinzione
2
0.02
del
2
0.02
ad
2
0.02
.
2
0.02
una
1
0.01
tutti
1
0.01
tutte
1
0.01
…
…
…
15
Il vocabolario
l 
Classe di frequenza (|Vi|)
l 
l’insieme dei type che hanno come frequenza i
l 
l 
V4 = l’insieme dei type che hanno frequenza 4
V1 = l’insieme dei type che ricorrono una volta sola
(hapax legomena)
| V1 | + | V2 | + | V3 | +...+ | V f max |=| Vc |
l 
La ripetizione di una stessa parola tipo v determina il passaggio di v
da una classe Vi alla classe Vi+1
l 
l 
… non cambia però il valore complessivo di |Vc| perché non viene
inserito un nuovo tipo in Vc
Con le classi di frequenza è possibile ricostituire la lunghezza del
corpus:
| V1 | ∗1+ | V2 | ∗2+ | V3 | ∗3 + ...+ | V f max | ∗ max =| C |
16
Classi di frequenza
ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione , senza
distinzione alcuna , per ragioni di razza , di colore , di sesso , di lingua , di religione , di opinione
politica o di altro genere , di origine nazionale o sociale , di ricchezza , di nascita o di altra
condizione . nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico , giuridico o
internazionale del paese o del territorio cui una persona appartiene , sia indipendente , o sottoposto
ad amministrazione fiduciaria o non autonomo , o soggetto a qualsiasi limitazione di sovranità .
parola
freq.
freq. rel.
,
14
0.13
di
12
0.11
o
8
0.08
distinzione
2
0.02
del
2
0.02
ad
2
0.02
.
2
0.02
una
1
0.01
tutti
1
0.01
tutte
1
0.01
…
…
…
V1 = 63
V2 = 4
V8 = 1
V12 = 1
V14 = 1
17
Il vocabolario
l 
Spettro di frequenze
l 
permette di analizzare la distribuzione delle parole tipo in classi
di frequenza
l 
grafico che si ottiene mettendo in ascissa valori crescenti di classi
di frequenza i da 1 a max; sulle ordinate, riportiamo quante parole
tipo hanno frequenza i
4000
3000
parole tipo
Gli hapax formano la classe
più numerosa: 3270
membri.
Le classi di frequenza i > 10
contengono ciascuna fino a
un massimo di 40 parole
tipo circa
spettro di
frequenze in
Pinocchio
classi di
frequenza
riportate in scala
logaritmica
2000
1000
0
1
10
100
1000
10000
classe frequenza
18
Indici statistici del testo
ricchezza lessicale
l 
Rapporto tipo-unità (Type Token Ratio o TTR)
l 
la ricchezza lessicale come funzione del numero di parole
diverse
| VC |
0≤
≤1
|C |
l 
l 
Square TTR
| VC |
|C |
esempio
l  Frammento 1, TTR = 29/33 = 0,87
Distribuzione degli hapax
| V1 |
|C |
Frammento 1
25 hapax
25/33= 0,75
19
Frequenze cumulate
l 
Frequenze cumulate di parole unità
l 
per ogni classe di frequenza i, fci è il numero di parole unità che
ricorrono da 1 a i volte
f =| V | ∗1+ | V | ∗2 + ...+ | V | ∗i
c
i
l 
1
2
i
se dividiamo fc per |C|, otteniamo la frequenza relativa cumulata
i
l 
la percentuale di testo coperta dal numero di parole unità
corrispondente a fc
i
20
Frequenze cumulate
l 
Frequenze cumulate di parole tipo
l 
per ogni classe i, Vc è uguale al numero di parole tipo che appaiono nel
i
testo da 1 a i volte
V =| V | + | V | +...+ | V |
c
i
l 
1
2
i
se dividiamo Vci per |VC|, otteniamo la frequenza relativa cumulata di
parole tipo
l 
la percentuale di vocabolario coperta dal numero di parole tipo
corrispondente a Vc
i
21
Frequenze cumulate in Pinocchio
l 
Il 90% del vocabolario di Pinocchio copre poco più
del 28% della lunghezza complessiva del libro
l 
la maggior parte delle parole tipo sono parole rare
(riccorrono poche volte nel testo)
100
99.20%
91.65%
60.91%
54.73%
50
28.18%
8.08%
0
1
10
100
1000
classe di frequenza
percentuale lessico
percentuale testo
22
Frequenze cumulate
l 
Due testi possono presentare fino al 70% di parole unità in comune
anche quando i loro rispettivi vocabolari non si sovrappongono per
più del 10%
l 
l 
bastano poche differenze testuali per far parlare due documenti di cose
completamente diverse
Due categorie di parole
l 
parole grammaticali (congiunzioni, articoli, preposizioni, ecc.)
l 
l 
formano il tessuto connettivo grammaticale del testo
sempre molto frequenti, indipendentemente dall’argomento del testo
§ 
§ 
l 
poco informative
lista chiusa e ristretta
parole lessicalmente piene (nomi, aggettivi, verbi, ecc.)
l 
l 
sono i portatori del vero contenuto informativo
meno frequenti e i tipi di parola dipendono dall’argomento del testo
§ 
lista aperta e potenzialmente infinita
23