Statistica descrittiva del testo
Transcript
Statistica descrittiva del testo
Linguistica Computazionale Frequenze di parole 7 ottobre 2014 Statistica terminologia di base l Popolazione (collettivo) l l’insieme delle entità (oggetti, individui, eventi, ecc.) che rappresentano il dominio di interesse e di ricerca, su cui vogliamo acquisire conoscenza l l Unità statistiche l gli elementi che compongono la popolazione l l l’Università, ecc. gli studenti universitari (ma anche le facoltà, i dipartimenti, ecc.) Variabili l attributi delle unità statistiche, che vengono misurate e/o rilevate l l età, reddito, provenienza, sesso, ecc. i valori che possono assumere le variabili si dicono modalità l l sesso = {M, F} età = {20, 25, ecc.} 2 Statistica terminologia di base l Le variabili sono di tipo diverso a seconda del tipo di valori che ammettono l nominali (o categoriali) – hanno un numero finito di valori che definiscono classi a cui appartengono le unità statistiche (sesso, provenienza, categoria grammaticale, ecc.) l l ordinali – hanno valori (gradi) che permettono di confrontare le unità statistiche ordinandole lungo una scala (voti degli esami, ecc.) l l non esistono relazioni di ordinamento tra le unità, ma solo di appartenenza o meno alla stessa classe differenze tra i gradi della scala non sono comparabili intervallo (o ratio) – hanno valori che permettono di stabilire non solo relazioni di ordinamento, ma anche di comparare le differenze e i rapporti tra i valori (es. altezza, lunghezza in caratteri di una parola, ecc.) 3 Statistica terminologia di base l Le unità statistiche differiscono per uno o più valori nelle variabili l gli studenti hanno diversa provenienza, diversa età, ecc. La rilevazione del valore delle variabili delle unità statistiche fornisce i dati a partire dai quali si cerca di acquisire conoscenza sul comportamento della popolazione dati statistica descrittiva statistica inferenziale conoscenza 4 Statistica terminologia di base l In generale i dati vengono acquisiti su un sottoinsieme della variabili popolazione (campione) unità statistiche l studente sesso provenienza età 34356 M Pisa 19 43553 F Lucca 22 I dati raccolti vengono riassunti attraverso le distribuzioni di frequenza l per ogni modalità x viene specificato quante unità nel campione hanno x (frequenza di x) provenienza F modalità della variabile Pisa 45 Lucca 72 Viareggio 29 5 Statistica distribuzione di frequenze Provenienza 80 70 60 50 Frequenze 40 Provenienza 30 20 10 0 Pisa Lucca Viareggio Livorno Firenze Bologna Roma Milano Modalità della variabile 6 Statistica e testo l Popolazione linguistica l l Campione l l linguaggio oggetto di studio corpus di testi della popolazione linguistica Unità statistiche l parole l altre unità linguistiche possono essere scelte come unità statistiche § morfemi, sintagmi, frasi, ecc. 7 (Word) Tokens <t n="1">Non</t><t n="2">era</t><t n="3">un</t><t n="4">legno</t><t n="5">di</t><t n="6">lusso</ t><t n="7">ma</t><t n="8">un</t><t n="9">semplice</t><t n="10">pezzo</t><t n="11">da</t><t n="12">catasta</t><t n="13">di</t><t n="14">quelli</t><t n="15">che</t><t n="16">d’</t><t n="17">inverno</t><t n="18">si</t><t n=“19">mettono</t><t n="20">nelle</t><t n="21">stufe</t><t n="22">e</t><t n="23">nei</t><t n="24">caminetti</t><t n="25">per</t><t n="26">accendere</t><t n="27">il</t><t n="28">fuoco</t><t n=“29">e</t><t n="30">per</t><t n="31">riscaldare</t><t n="32">le</t><t n="33">stanze</t> Frammento 1 l Ogni (word) token (o parola unità) rappresenta una distinta occorrenza di parola nel testo l l NB: le parole sono un sottoinsieme dei token di un testo Le parole token sono le unità statistiche 8 Attributi delle parole l Gli attributi di una parola unità sono le dimensioni che la caratterizzano e possono essere operazionalizzate come variabili (tipicamente di natura categoriale) l tipo, lemma, categoria grammaticale, lunghezza in caratteri, ecc. attributi ATTRIBUTO parole unità parola unità Non1 era2 un3 legno4 di5 lusso6 ma7 un8 semplice9 pezzo10 da11 catasta12 (PAROLA) TIPO non era un legno di lusso ma un semplice pezzo da catasta LEMMA LUN NON 3 3 2 5 2 5 2 2 8 5 2 7 ESSE R E UN LEGNO DI LUSSO MA UN SEMPLI C E PEZZ O DA CATASTA CATEGORIA GRAMMATICAL E AVVE R B I O VE R B O ARTI C O L O NOME PREPOSIZ I O N E NOME CONGIUNZIONE ARTI C O L O AGGETTIVO NOME PREPOSIZ I O N E NOME valori degli attributi Statistica e testo l l Gli attributi delle parole unità formano le variabili statistiche da rilevare Dato un attributo, contare quante parole unità ricorrono con un certo valore v dell’attributo significa calcolare la frequenza (assoluta) di v l l l quanti tokens sono nomi? = frequenza dei nomi quanti tokens appartengono al lemma CANE? = frequenza di CANE (Word) type (parola tipo) l classe di tutti i tokens che contengono la stessa sequenza di caratteri l l due parole unità appartengono allo stesso tipo se sono formalmente indistinguibili a prescindere dalla posizione che occupano nel testo l’individuazione del tipo di parola non tiene conto di ulteriori analisi linguistiche (es. lemmatizzazione, ecc.) 10 Tokens e types La porta è chiusa . La strada porta al mare . porta PORTA tokens type PORTARE lemmi 11 Distribuzione di frequenze di parole l Frequenza (assoluta) di una parola tipo vi (|vi|) l l numero delle occorrenze (tokens) della parola tipo vi in un testo esempio: l frequenze nel Frammento 1, |di| = 2 parola tipo 12 Frequenze di parole l Lunghezza del corpus (|C|) l numero di tokens nel testo Se v1, …, vn sono i types del testo vale che v1 + v2 + v3 + ... + vn = | C | l In generale, le frequenze assolute di due distribuzioni, non sono confrontabili, in quanto si riferiscono a un diverso numero totale di unità l Frequenza relativa di una parola (f(vi)) f (vi ) = vi |C | normalizzata come percentuale vi |C | ×100 13 Il vocabolario l Vocabolario del corpus (VC) l l numero delle parole tipo distinte (type) nel corpus esempio l l Nel Frammento 1, |VC| = 29 Alcune distinzioni importanti l Vocabolario del corpus l l Lessico l l l insieme dei type distinti che ricorrono nel corpus repertorio di tutte le parole possibili di quella lingua (oppure di tutte le parole conosciute da quel parlante) insieme potenzialmente infinito di parole Dizionario l repertorio di lemmi e forme flesse di una lingua selezionato per qualche scopo 14 Distribuzioni di frequenze ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione , senza distinzione alcuna , per ragioni di razza , di colore , di sesso , di lingua , di religione , di opinione politica o di altro genere , di origine nazionale o sociale , di ricchezza , di nascita o di altra condizione . nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico , giuridico o internazionale del paese o del territorio cui una persona appartiene , sia indipendente , o sottoposto ad amministrazione fiduciaria o non autonomo , o soggetto a qualsiasi limitazione di sovranità . |C| = 105 tokens VC = 70 types parola freq. freq. rel. , 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02 . 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 … … … 15 Il vocabolario l Classe di frequenza (|Vi|) l l’insieme dei type che hanno come frequenza i l l V4 = l’insieme dei type che hanno frequenza 4 V1 = l’insieme dei type che ricorrono una volta sola (hapax legomena) | V1 | + | V2 | + | V3 | +...+ | V f max |=| Vc | l La ripetizione di una stessa parola tipo v determina il passaggio di v da una classe Vi alla classe Vi+1 l l … non cambia però il valore complessivo di |Vc| perché non viene inserito un nuovo tipo in Vc Con le classi di frequenza è possibile ricostituire la lunghezza del corpus: | V1 | ∗1+ | V2 | ∗2+ | V3 | ∗3 + ...+ | V f max | ∗ max =| C | 16 Classi di frequenza ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione , senza distinzione alcuna , per ragioni di razza , di colore , di sesso , di lingua , di religione , di opinione politica o di altro genere , di origine nazionale o sociale , di ricchezza , di nascita o di altra condizione . nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico , giuridico o internazionale del paese o del territorio cui una persona appartiene , sia indipendente , o sottoposto ad amministrazione fiduciaria o non autonomo , o soggetto a qualsiasi limitazione di sovranità . parola freq. freq. rel. , 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02 . 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 … … … V1 = 63 V2 = 4 V8 = 1 V12 = 1 V14 = 1 17 Il vocabolario l Spettro di frequenze l permette di analizzare la distribuzione delle parole tipo in classi di frequenza l grafico che si ottiene mettendo in ascissa valori crescenti di classi di frequenza i da 1 a max; sulle ordinate, riportiamo quante parole tipo hanno frequenza i 4000 3000 parole tipo Gli hapax formano la classe più numerosa: 3270 membri. Le classi di frequenza i > 10 contengono ciascuna fino a un massimo di 40 parole tipo circa spettro di frequenze in Pinocchio classi di frequenza riportate in scala logaritmica 2000 1000 0 1 10 100 1000 10000 classe frequenza 18 Indici statistici del testo ricchezza lessicale l Rapporto tipo-unità (Type Token Ratio o TTR) l la ricchezza lessicale come funzione del numero di parole diverse | VC | 0≤ ≤1 |C | l l Square TTR | VC | |C | esempio l Frammento 1, TTR = 29/33 = 0,87 Distribuzione degli hapax | V1 | |C | Frammento 1 25 hapax 25/33= 0,75 19 Frequenze cumulate l Frequenze cumulate di parole unità l per ogni classe di frequenza i, fci è il numero di parole unità che ricorrono da 1 a i volte f =| V | ∗1+ | V | ∗2 + ...+ | V | ∗i c i l 1 2 i se dividiamo fc per |C|, otteniamo la frequenza relativa cumulata i l la percentuale di testo coperta dal numero di parole unità corrispondente a fc i 20 Frequenze cumulate l Frequenze cumulate di parole tipo l per ogni classe i, Vc è uguale al numero di parole tipo che appaiono nel i testo da 1 a i volte V =| V | + | V | +...+ | V | c i l 1 2 i se dividiamo Vci per |VC|, otteniamo la frequenza relativa cumulata di parole tipo l la percentuale di vocabolario coperta dal numero di parole tipo corrispondente a Vc i 21 Frequenze cumulate in Pinocchio l Il 90% del vocabolario di Pinocchio copre poco più del 28% della lunghezza complessiva del libro l la maggior parte delle parole tipo sono parole rare (riccorrono poche volte nel testo) 100 99.20% 91.65% 60.91% 54.73% 50 28.18% 8.08% 0 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo 22 Frequenze cumulate l Due testi possono presentare fino al 70% di parole unità in comune anche quando i loro rispettivi vocabolari non si sovrappongono per più del 10% l l bastano poche differenze testuali per far parlare due documenti di cose completamente diverse Due categorie di parole l parole grammaticali (congiunzioni, articoli, preposizioni, ecc.) l l formano il tessuto connettivo grammaticale del testo sempre molto frequenti, indipendentemente dall’argomento del testo § § l poco informative lista chiusa e ristretta parole lessicalmente piene (nomi, aggettivi, verbi, ecc.) l l sono i portatori del vero contenuto informativo meno frequenti e i tipi di parola dipendono dall’argomento del testo § lista aperta e potenzialmente infinita 23