Dispensa n° 1 GLOSSARIO su Analisi dei Dati Testuali e Text mining

Transcript

Dispensa n° 1 GLOSSARIO su Analisi dei Dati Testuali e Text mining
Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi
Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012
Docente: Sergio Bolasco
Dispensa n° 1
GLOSSARIO su Analisi dei Dati Testuali e Text mining
Legenda:
grassetto = voce del glossario
corsivo sottolineato = rimando ad altra voce del glossario
corsivo = parole straniere o parole chiave
AAT: analisi automatica dei testi
AC: analisi del contenuto, content analysis
AD: analisi del discorso
ADT: analisi dei dati testuali, ambito della statistica testuale
AFC: analisi fattoriale delle corrispondenze
alfabeto: insieme dei caratteri costituenti le forme grafiche; elementi (bytes) costituenti i
tokens scanditi nel parsing del corpus
7. analisi lessicale: livello di studio del linguaggio di un corpus di testi; il dominio dell’a.l. è il
vocabolario del corpus; il prodotto di una attività di a.l. è l’annotazione delle unità lessicali
8. analisi testuale: livello di studio delle occorrenze (singole apparizioni delle unità lessicali) di
un corpus di testi; il dominio dell’a.t. è l’insieme dei frammenti del corpus; il prodotto di
una attività di a.t. è l’annotazione delle unità di contesto (categorizzazione dei frammenti o
documenti)
9. carattere: singolo byte di un testo elettronico; in AAT si distinguono in due classi: alfabeto
e separatore
10. chunk: spezzone temporaneo di discorso per esplorare il testo; finestra di testo compresa
fra due separatori (forti) di punteggiatura; talvolta questa entità è chiamata contesto
elementare
11. collocazione: co-occorrenza regolare di due o più parole, di solito una vicina all’altra, che si
incontrano in modo fisso e sistematico o caratterizzate da un forte legame di associazione
reciproca (Lenci, 196), creando un concetto unitario; associazione abituale di un morfema
lessicale con altri all’interno di un enunciato. Esempi di c. sono: termini tecnici (decreto
legge, materie prime), costrutti a verbi supporto (fare attenzione, prendere posto), nomi
propri (Stati Uniti d’America), costruzioni idiomatiche (tagliare la corda, andare a letto con
le galline, mercato nero), complementi tipici di un verbo (infrangere le regole).
12. concordanza: collezione di tutti i co-testi di una stessa parola (pivot) nel corpus
13. corpus: collezione di testi, costituita da uno o più elementi (frammenti), coerenti fra loro a
fini di studio; quando la collezione dei testi che costituisce il corpus è ampia (diverse
decine, centinaia o migliaia di frammenti) è possibile associare ad ogni elemento della
collezione informazioni strutturate (dati codificati costituenti variabili quantitative o
qualitative)
14. co-testo: intorno destro o sinistro della parola pivot in una concordanza
15. dati codificati: informazioni intese come modalità di variabili quantitative o qualitative,
queste ultime espresse in maniera standardizzata
16. dati non strutturati: dati testuali; informazioni sparse ovunque in un testo ed espresse
liberamente in linguaggio naturale contenute in un corpus di testi di qualunque tipo
1.
2.
3.
4.
5.
6.
1
Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi
Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012
Docente: Sergio Bolasco
17. dati strutturati: informazioni inserite in campi di una tabella di un database, sotto forma di
dati codificati
18. dati testuali: vedi dati non strutturati
19. disambiguazione: eliminazione dell’ambiguità di un’unità lessicale; azione per attribuire ad
una parola la giusta categoria grammaticale o l’autentica accezione in un dato contesto
20. discorso: termine convenzionale per indicare lo sviluppo del testo in frasi
21. dizionario: inventario “(in)completo” di una lingua; insieme di unità lessicali iscritto in una
semplice lista, eventualmente arricchita di categorizzazioni grammaticali o semantiche
22. DM: data mining; processo di elaborazione statistica di masse di dati strutturati per
estrarre nuova conoscenza
23. entrata: voce di una lista o dizionario o altro index lessicale
24. ETL: (Extraction Transformation Loading) processo di estrazione, trasformazione e
archiviazione di informazioni; processo di trasformazione di dati non strutturati in dati
strutturati
25. forma grafica (type): catena di caratteri (bytes) di un dato alfabeto pre-definito; elemento
base del riconoscimento automatico (parsing) di un testo
26. frammento: termine convenzionale identificante l’unità di contesto; è l’elemento base
della collezione di testi costituenti il corpus; in quanto tale costituisce l’elemento di
frammentazione del corpus in frasi o proposizioni o periodi o documenti; ogni frammento,
nel caso si tratti di un documento, può a sua volta essere articolato in sezioni
27. frequenza normalizzata: quantità di occorrenze di un type ogni “x” occorrenze di parole; in
pratica, quando ad esempio calcoliamo una frequenza normalizzata ogni 1000 parole, se la
frequenza della forma grafica io = 5,2 vuol dire che mediamente nel corpus il type “io” si
trova 5 volte (e poco più) ogni 1000 occorrenze
28. hapax: parola che appare una sola volta nel corpus; unità di testo con un sola occorrenza
nel vocabolario
29. KM: (Knowledge Management) gestione della conoscenza
30. KWIC (KeyWord In Context): è la modalità corrente per visualizzare una concordanza
31. lemma: coppia di informazioni [forma canonica, categoria grammaticale] presente in un
dizionario di lingua
32. lessia: unità di analisi del testo; può essere costituita da una forma semplice, da una parola
composta, da una locuzione o una multiword; in ogni caso la l. costituisce un atomo di
significato, quindi una unità di senso
33. lessicale: attributo inerente il linguaggio o lessico, ovvero l’insieme delle entrate del
vocabolario di un corpus
34. lessicalizzazione: processo che porta a introdurre termini nuovi in una lingua; ricostruzione
di una lessia complessa sotto forma di una sola occorrenza, come nuova entrata nel
vocabolario del corpus; le nuove occorrenze prodotte da una lessicalizzazione sono “parole
di più parole” (o multiwords): ad esempio <capo dello stato>, <politica economica>, <a
carico di>, <andare al creatore>
35. lessico di frequenza (dizionario di frequenza): vocabolario di un corpus di ampie
dimensioni (milioni di occorrenze), derivante da una raccolta di testi rappresentativi di un
dato dominio di linguaggio (parlato, scritto, di settore, ...); le occorrenze (o l’uso) di un
lessico di frequenza costituiscono un riferimento statistico da utilizzare nei confronti
lessicali finalizzati ad estrarre il linguaggio peculiare (LIPE); tali confronti possono essere
fatti a livello di lemmi o di forme
2
Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi
Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012
Docente: Sergio Bolasco
36. meta-lista: insieme di query lessicali di vario tipo e origine, per annotare in un solo step di
analisi le entrate del vocabolario con tags semantici
37. meta-query: insieme di query testuali da eseguire in un solo step di analisi; piano di lavoro
per annotazioni sui frammenti attraverso l’alimentazione di nuove informazioni (variabili
testuali o codificate)
38. mining: estrarre informazione da un vastissimo giacimento di dati; data mining e text
mining: procedure per estrarre rispettivamente dati strutturati (dati codificati) e non
strutturati (dati testuali); attività elementare di text mining mediante applicazione di una query
su un campo di una tabella in un database relazionale
39. morfema grammaticale: desinenza grammaticale di una forma flessa (scriv-ere, parl-are,
buon-o, civil-e, donn-a, ragazz-i)
40. morfema lessicale: radice lessicale di una forma flessa: (parl-ato/are/avo/a/i/o); in ambito
non linguistico, talvolta la radice è chiamato lessema e il processo di riduzione di una
flessione al suo radicale viene denominato lessematizzazione
41. multiword expression: lessia complessa costituita da più forme grafiche, presente come
entrata nel vocabolario; poliforme lessicalizzato
42. NLP (Natural Language Processing): trattamento del linguaggio naturale; insieme di
procedure automatiche per riconoscimenti di tipo linguistico e/o semantico sulle parole di
un testo
43. occorrenza: (token, replica), ogni apparizione di una parola nel testo; la frequenza di una
parola in un testo è data dal numero delle sue occorrenze (più propriamente si parla di
frequenza normalizzata)
44. parola: termine convenzionale e generico per identificare l’unità di analisi del testo
45. parsing: procedura di individuazione dei token nel corpus (tokenizzazione) attraverso
segmentazione e numerizzazione del testo in parole sulla base di un alfabeto; in linguistica,
è il processo di determinazione della struttura morfo-sintattica di una frase
46. poliforme: segmento di senso compiuto; se il segmento viene lessicalizzato, ossia
considerato come un’unica occorrenza a cui corrisponde un nuovo type del vocabolario, è
assunto come multiword
47. polirematica: espressione/locuzione composta da più parole che ha un significato diverso
dalla somma dei significati elementari dei suoi componenti, neanche potenziali (<mercato
nero> non è un mercato scuro; <capo dello stato> non è un “promontorio della nazione”)
48. POS: part of speech, ovvero categoria grammaticale cui appartiene una parola; ad esempio;
V=verbo, N=sostantivo, A=aggettivo, AVV=avverbio ecc.
49. query lessicale: elemento base di una richiesta per effettuare il mining sulle entrate di una
lista; una singola richiesta può essere formata da una parola, da un morfema (lessicale o
grammaticale) o da un infisso (la query politic trova sia iper|politic|izzati, sia politic|s, sia
geo|politic|o)
50. query testuale: elemento base di una richiesta per effettuare il mining sulle occorrenze di
un testo; una singola richiesta può essere formalizzata sia con una unità di testo o una loro
classe o categoria, sia con una espressione regolare che ponga in relazione almeno due dei
precedenti operandi
51. rango: posto occupato da un elemento in una lista/graduatoria; posizione di una unità di
testo nel vocabolario ordinato per occorrenze decrescenti
52. segmento: sequenza di parole adiacenti; tutte le disposizioni a 2, 3, ..., q parole che si
ripetono più volte nel corpus
3
Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi
Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012
Docente: Sergio Bolasco
53. separatore: carattere delimitatore di una forma grafica o di un chunk di testo; i separatori
“deboli” delimitano le forme grafiche (token), quelli “forti” delimitano gli spezzoni di testo
per individuare un segmento
54. sezione: articolazione possibile di un frammento; parte di un documento strutturato; ad
esempio, se il documento è un articolo di giornale, le sue sezioni possono essere: il titolo, il
sottotitolo, l’occhiello, il corpo dell’articolo
55. sintagma: disposizione di elementi fra loro concatenati; ad esempio costituiscono un s. le
lettere costituenti una parola o le parole di una frase; struttura ad albero di parti del
discorso
56. spezzone (di testo): vedi chunk
57. tag: etichetta per marcare un elemento di una lista; segno o label usati per una
annotazione
58. testi, sub-testi: parti o elementi di una partizione costitutiva del corpus; raggruppamento
di frammenti secondo le modalità di una variabile codificata
59. testuale: attributo inerente il testo, ossia riguardante lo sviluppo del discorso nel corpus
60. text mining: attività di esplorazione e “scavo” in un giacimento di materiali testuali
(corpus) per recupero ed estrazione di informazioni; procedure complesse per estrarre
conoscenza, finalizzata a creare valore, da vastissime basi documentali di aziende o
istituzioni
61. TM: acronimo di text mining
62. token: singola occorrenza o replica di un type; l’insieme dei token di un corpus esprime la
sua estensione o ampiezza in occorrenze (N)
63. tokenizzazione: processo di segmentazione del testo in occorrenze o token, sulla base di
una sequenza di caratteri - definiti come appartenenti ad un alfabeto - delimitata da
separatori; al processo di tokenizzazione è associato quello di numerizzazione
64. type: tipo di occorrenza scandita dal parsing del testo; un t. può essere espresso da una
forma grafica qualsiasi, da una parola singola o da una parola di più parole, detta
multiword ; l’insieme dei types di un corpus esprime la sua ricchezza lessicale (V)
65. unità di contesto: unità di analisi testuale per la contestualizzazione delle occorrenze del
corpus; record individuale della collezione di testi costituenti il corpus; frammento
66. unità di testo: unità di analisi lessicale per l’analisi automatica di un testo; occorrenza;
type; lessia
67. vocabolario: lista dei diversi types (unità lessicali) del corpus con le corrispondenti
occorrenze; conteggio sul discorso attualizzato
4