Capitolo 4 – L`analisi ed esplorazione dei corpora

Transcript

Capitolo 4 – L`analisi ed esplorazione dei corpora
I. Chiari, Introduzione alla linguistica computazionale, Laterza, Roma-Bari 2007
Capitolo 4 – L’analisi ed esplorazione
dei corpora
Esercitazione 1 – Osservazione delle liste di frequenza
1. Leggere e scaricare le liste di frequenza dei seguenti corpora:
a. British National Corpus
(http://www.comp.lancs.ac.uk/ucrel/bncfreq/flists.html ): scaricare la lsita
Rank frequency list for the whole corpus
b. Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)
(http://www.istc.cnr.it/material/database/colfis/ ): scaricare il formario.txt
(ordinare la lista per frequenza decrescente)
2. osservare nella lista in ordine di frequenza decrescente e determinare:
a. quali sono le prime parole della lista?
b. quali sono le prime cinque parole piene del corpus?
c. Individuare il confine della fascia alta.
d. Quali parole troviamo alle frequenze basse?
3. Scaricare dai due siti precedenti le liste lemmatizzate e determinare:
a. Ordinare le liste per frequenza decrescente.
b. Che differenze ci sono ai ranghi più bassi rispetto alla lista non lemmatizzata,
in particolare osservando i verbi?
c. Ci sono differenze nella lista inglese e in quella italiana?
I. Chiari, Introduzione alla linguistica computazionale, Laterza, Roma-Bari 2007
Esercitazione 2 – Esplorazione di un corpus di italiano parlato
1. Esplorazione del Lessico di frequenza dell'italiano parlato (LIP), dal sito
BADIP:
d. Banca dati dell'italiano parlato (BADIP): http://languageserver.unigraz.at/badip/badip/20_corpusLip.php
e. Andare alla maschera di Ricerca (esplorare la sintassi di interrogazione in
aiuto)
2. Operare le seguenti ricerche e salvare i risultati:
a. Svolgere le operazioni che seguono con l’esempio del verbo portare e con una
forma verbale di un verbo comune (es. andare, vedere, ecc.)
b. Svolgere una ricerca e segnare i risultati quantitativi, osservando le
concordanze che ne escono:
a. Il verbo all’infinito (es. portare)
b. Il verbo in una forma coniugata (es. porta, porto)
c. La forma coniugata con la specificazione della categoria grammaticale
(es. .V.PORTARE.porto)
d. Il lemma del verbo (es. .V.PORTARE)
3. Rispondere alle domande relative alla specifica interrogazione:
a. I dati estratti al punto b e al punto c coincidono? In caso affermativo o
negativo provare a spiegare perché? Esistono casi a cui potete pensare in cui i
vostri dati produrrebbero risultati di segno diverso?
b. Qual è la frequenza relativa della forma coniugata del punto b?
c. Qual è la frequenza relativa del lemma del punto d?
d. Osservando le concordanze della forma porta (al punto b), notate qualche uso
particolare?
e. Ci sono delle collocazioni osservabili dai risultati su porta?
4. Rispondere alle domande relative ai metodi di interrogazione:
a. Il sistema supporta ricerche per forma specifica?
b. Il sistema supporta ricerche con caratteri jolly? Se sì, quali?
c. Il sistema supporta ricerche con espressioni regolari?
I. Chiari, Introduzione alla linguistica computazionale, Laterza, Roma-Bari 2007
d. È possibile operare ricerche sulle categorie vuote (es. scoprire quanti aggettivi
sono presenti nel LIP)?
e. È possibile svolgere ricerche sui sottocorpora?
f.
È possibile svolgere ricerche sulle tipologie testuali?
g. È possibile accedere ai testi integrali?
Esercitazione 4 - Esplorazione di un corpus di riferimento della
lingua inglese
5. Esplorazione del British National Corpus, dal sito Variations in English di
Mark Davies:
f. Variations in English: http://view.byu.edu/
g. Andare alla maschera di Ricerca (esplorare la sintassi di interrogazione in
aiuto)
6. Operare le seguenti ricerche e salvare i risultati:
c. Svolgere le operazioni che seguono con l’esempio del sostantivo goer e con
una forma di propria scelta (parola piena)
d. Svolgere una ricerca e segnare i risultati quantitativi, osservando le
concordanze che ne escono:
a. Forma specifica (es. goer)
b. Forma con tag grammaticale (es. goer, noun.ALL)
c. Forma specifica con sorrounding di un aggettivo che precede la forma
(adj.ALL 1 5)
7. Rispondere alle domande relative alla specifica interrogazione:
f.
I dati estratti al punto a e al punto b coincidono? In caso affermativo o
negativo provare a spiegare perché? Esistono casi a cui potete pensare in cui i
vostri dati produrrebbero risultati di segno diverso?
g. Osservando le concordanze della forma goer notate qualche uso particolare?
h. Ci sono delle collocazioni osservabili dai risultati su goer?
I. Chiari, Introduzione alla linguistica computazionale, Laterza, Roma-Bari 2007
8. Rispondere alle domande relative ai metodi di interrogazione:
h. Il sistema supporta ricerche per forma specifica?
i.
Il sistema supporta ricerche con caratteri jolly? Se sì, quali?
j.
Il sistema supporta ricerche con espressioni regolari?
k. È possibile operare ricerche su base semantica?
l.
È possibile operare ricerche sulle categorie vuote (es. scoprire quanti aggettivi
sono presenti nel LIP)?
m. È possibile svolgere ricerche sui sottocorpora?
n. È possibile svolgere ricerche sulle tipologie testuali?
o. È possibile accedere ai testi integrali?