Il Progetto RIDIRE.it

Transcript

Il Progetto RIDIRE.it
(Risorsa Dinamica Italiana di Rete)
Massimo Moneglia
LABLITA (Firenze)
Dottorato di Linguistica, UNIROMA III, 15 aprile 2010
Progetto RIDIRE.it
• Repository dei contenuti della rete più
rappresentativi per la vita sociale e la cultura
italiana
• Sfruttamento delle potenzialità dei grandi
corpora per il consolidamento del possesso
della lingua italiana negli apprendenti l’italiano
L2
• Infrastruttura di rete
obiettivi
• accesso selettivo a contenuti che rappresentano
l’uso linguistico italiano sia dal punto di vista
funzionale sia dal punto di vista dell’eccellenza
italiana nel mondo.
• strumenti di estrazione dell'informazione
linguistica che consentono l’apprezzamento
dell’uso linguistico italiano nei domini d’uso
rappresentati.
• modelli di utilizzo dell’informazione estratta da
corpus per l’acquisizione di L2
UTENTI POTENZIALI
• Infrastruttura rivolta a professori di lingua e
cultura italiana nel mondo
• Soggetti che vogliano potenziare le loro capacità
nell’uso linguistico italiano attraverso l’ accesso
selettivo alla fraseologia italiana per dominio
• formazione (studenti)
• consolidamento delle radici identitarie (emigrati di
seconda e terza generazione)
• lavoro e affari (cittadini di paesi in zone di
espansione dell’italiano).
CONSORZIO
Coordinamento: Società internazionale di
linguistica e filologia italiana (SILFI)
– UNIFI (LABLITA)
– UNIFI (DSI)
– UNITO Dip. scienze letterarie e Filologiche
– UNIROMA3 (Dip. Italianistica)
– UNINA (Dip. Filologia Moderna)
– UNISI (Dip. Economia)
– Progetto finanziato dal Fondo Italiano per la
Ricerca di Base
– Progetti nel campo della linguistica 2009-2012
Agenda
• Perché un web corpus per l’italiano nel contesto
culturale globale del web
• le risorse linguistiche italiane disponibili
• Design di RIDIRE
• Il crawling dei contenuti dalla rete
• Il processamento dell’informazione
• Infrastruttura computazionale di rete
• Informazione linguistica derivata per la concezione di
modelli di utilizzo per L2
Perché un web corpus
La rete è grande e è cresciuta
rapidamente
• Google index in 1998 26 million pages
• Google index by 2000 reached one billion mark.
• 29.7 billion pages on the World Wide Web as of February 2007.
– 1 trillion (as in 1,000,000,000,000) unique URLs on the web at
once! in 2008
La rete
• Internet è attualmente il più grande deposito di
informazione linguistica esistente
• E’ insieme ambiente e mezzo privilegiato
dell’uso di una lingua
– lo spazio entro il quale sia gli usi funzionali sia gli
usi creativi del linguaggio sono esercitati con
sempre maggior frequenza.
– Consente un accesso e un utilizzo più frequente
della lingua scritta nella popolazione
IL WEB è MULTILINGUE
Lingua
cinese mandarino
inglese
hindi + urdu
spagnolo
russo
bengali
arabo
portoghese
maleo-indonesiano
giapponese
francese
tedesco
…
Italiano
Lingue romanze > 800 milioni
N. di parlanti
1 miliardo
1 miliardo
900 milioni
450 milioni
320 milioni
250 milioni
250 milioni
200 milioni
160 milioni
145 milioni
125 milioni
125 milioni
75 milioni
Intorno all’anno 2000: INGLESE AL 70%
2002-2003 ESPLOSIONE DEL WEB 56%
Chart of Web content (milions of webpages by language)
• English
1142,5 56,4%
• German
156,2
7,7%
• French
113,1
5,6%
Languages used to access Google
• Japanese
98,3
4,9%
in
January 2002 (vs 2001)
• Spanish
59,9
3,0%
English
57%
(64%)
• Chinese
48,2
2,4%
German
12%
(9%)
• Italian
41,1
2,0%
Japanish
7%
(8%)
Spanish
6%
(5%)
• Dutch
38,8
1,9%
French
5%
(4%)
• Russian
33,7
1,7%
Chinese
3%
(1%)
• Korean
30,8
1,5%
Italian
2%
(2%)
• Portuguese 29,4
1,5%
Other
8%
(4%
• Swedish
15,1
0,7%
• Polish
14,8
0,7%
• Danish
12,3
0,6%
• Czech
11,5
0,6%
• Turkish
4,9
0,2%
• Hungarian
4,1
0,2%
• Greek
2,0
0,1%
• Other
168,0
8,3%
DICEMBRE 2008
• l’inglese è sceso sotto al 30%
• Tanto più cresce quanto più si
differenzia linguisticamente
– Correlazione inversa alla crescita del web
• Novembre 2009 “domini in alfabeti non
latini”
Il web è multilingue
• A livello degli utenti
• A livello dei contenuti
• L’inglese, lingua franca nel mondo globale , non
cancella la diversità linguistica nella società
dell’informazione
• Ma l’inglese è la lingua dell’universo di
riferimento globale
• L’italiano non è lingua globale
• l’italiano è presente nell’universo globale della
rete
• le parole chiave dell’italiano sono relative
ad un universo culturale
ad un insieme di usi funzionali
US / GLOBAL
http://www.google.com/intl/en/press/zeitgeist2008/
• L’italiano ha una vasta presenza di comunità semiitaliofone nel mondo
• L’italiano ha un patrimonio culturale attuale e una eredità
culturale di valore globale
• per garantire il ruolo di una lingua e di una cultura nella
società dell’informazione
– è necessario garantire accessibilità ai suoi contenuti di rete
– è necessario rafforzare la possibilità di fruizione e utilizzo
– garantire gli strumenti per il suo apprendimento
Le risorse linguistiche
Corpora
Corpora in rete
Web corpora
I primi corpora di riferimento
• Lessico di frequenza della lingua italiana contemporanea (LIF),
(Centro Nazionale Universitario di Calcolo elettronico) di Pisa 1971
circa 5.000 lemmi ordinati per frequenza
spoglio di testiscritti tra il 1947 e il 1968 per 500.000 parole (teatro, romanzi, cinema,
periodici, sussidiari) Non disponibile.
• Lessico di frequenza dell'italiano parlato (LIP), curato da De Mauro,
Mancini, Vedovelli e Voghera (1993)
circa 500.000 parole da, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e
Napoli, (57 ore di parlato)
Ora on line nel BAdip URL:
http://languageserver.unigraz.at/badip/badip/20_corpusLip.php
Storici
• Tesoro della lingua italiana delle origini (TLIO)
•
database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780
testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in
prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di
Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito
dell'Istituto Opera del Vocabolario Italiano (OVI):
URL: http://tlio.ovi.cnr.it/TLIO/
• CT "Corpus Taurinense"
•
Progetti (COFIN), condotti da Bice Mortara Garavelli e Lorenzo Renzi OVI, IMS,
DimaLogic.. Corpus di Italiano antico (XIII secolo, Firenze) 259,299 tokens 21,087
types 7,599 lemmas. Interamente lemmatizzato, POS-tagged secondo specifiche
EAGLES. Annotato per corpus design (generi letterari) e forme filologiche.
http://www.corpora.unito.it/
• Letteratura Italiana Zanichelli Picchi & Stoppelli CD-rom
•
Contiene il testo integrale di 1000 opere della letteratura italiana. 245 autori dalle
origini fino a D’Annunzio e Pirandello più 19 anonimi, 4 antologie poetiche e l'intera
serie delle riviste Il Caffè e Il Conciliatore
•
Corpus e Lessico di Frequenza dell'Italiano Scritto (ColFI) 3.150.075 occorrenze lessicali
tratte da quotidiani, periodici e libri di varia natura bilanciate secondo le letture degli italiani.
. http://www.istc.cnr.it/material/database/colfis/
•
Lessico di frequenza dell'italiano radiofonico (LIR) è un progetto di analisi del lessico e del
corpus del parlato radiofonico nato nel 1998. Il corpus di circa 60 ore, è trascritto
ortograficamente, allineato all'audio mediate software apposito, lemmatizzato e pubblicato
su cd-rom. Accademia della Crusca
•
Corpus di italiano televisivo (CIT) Perugia- attualità, intrattenimento, pubblicità, sport e
telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI).
URL: http://www.sspina.it/cit/cit.htm
•
Athenaeum Corpus
corpus di italiano scritto accademico, dell'Università di Torino; POS-taggati e classificati
per argomento e tipo testuale (articoli della rivista L'Ateneo e del notiziario Dall'Universita',
documenti ufficiali, e-mail prodotte dai vari dipartimenti e uffici amministrativi) / 306.927
token; 32.221 type; 11.748 lemmas
•
Jus Jurium
(in progress) è un corpus in lingua italiana che intende coprire la totalità dell'universo di
discorso legale oggi corrente in Italia. Non si tratta di un database giuridico essendo le sue
finalità precipuamente linguistiche. Il corpus è etichettato per parti del discorso ed ha un
robusto markup testuale e diplomatico. Ancora non interrogabile.
http://www.corpora.unito.it
http://www.bmanuel.org/projects/
•
VALICO "Varietà di Apprendimento della Lingua Italiana: Corpus
Online" e VINCA "Varietà di Italiano di Nativi Corpus Appaiato".
La risorsa è consultabile ed interrogabile on-line. Sotto la supervisione di Manuel
Barbera, Carla Marello ed Elisa Corino,
VALICO è un corpus multilingue di e per apprendenti di italiano come L2. VINCA è il
corpus di testi scritti da italofoni appaiato a VALICO.
formato da testi trascritti annotati per parte del discorso, per tipo testuale, per lingua
madre dell'apprendente.
Sono state raccolte per lo più composizioni libere, traduzioni e composizioni scritte
elicitate a partire da stimoli iconici.
•
Il bilanciamento mira ad avere in VALICO la stessa quantità di testi ( e token) per
gruppi di studenti con lingua madre o L1 più rappresentata fra quelle presenti nel
corpus e cioè inglese, francese, spagnolo, tedesco. E anche una stessa (minore)
quantità di testi per gruppi di studenti con lingue madri meno rappresentate come
maltese, polacco, giapponese, arabo, serbo, portoghese, ungherese.
Corpus LABLITA-C-ORAL-ROM
• Corpus di Italiano Parlato spontaneo adulto in situazioni
comunicative diafasiche diverse raccolto in Toscana a
partire dal 1965 (800.000 parole)
• Corpus dell’acquisizione nella fase del primo
apprendimento (18-36 mesi).
• Il corpus allineato C-ORAL-ROM italian nel corpus
comparabile del parlato romanzo
•
API/AVIP/IPar (laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e
l’Orientale di Napoli, il Politecnico di Bari e l’Università del Piemonte Orientale)
–
–
•
materiale fonico spontaneo di lingua italiana, conformi alle specifiche di codifica e
annotazione di Eagles. Il materiale dei corpora (files e software) è disponibile su cd-rom,
distribuiti dal CIRASS e via ftp sempre dal sito del CIRASS (ftp.cirass.unina.it).
URL: http://www.cirass.unina.it/
Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) (audio, etichettatura
e documentazione)
– circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte
trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state
effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e
socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce,
Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato
raccolto
- parlato radiotelevisivo (notiziari, interviste, talk shows);
- parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco
delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti
ortograficamente, studenti universitari);
- parlato letto da parlanti non professionisti (20 frasi lette a garantire la copertura
delle frequenze medio-alte del lessico italiano);
d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo
simulato)
e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle
sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano)
registrato in camera anecoica
•
URL: http://www.clips.unina.it/.
Risorse con ricerche accessibili
in rete
– CoRIS/Codis
– Corpus la repubblica
– NUNC
– Webbit
– Itwak
I corpora per la consultazione e la ricerca on line
• Corpus di Italiano Scritto contemporaneo (CORIS/CODIS)
– COrpus di Riferimento dell'Italiano Scritto ( Coris ) .
• Il corpus contiene 100 milioni di parole aggiornato ogni due anni
• prevalentemente di narrativa prodotta negli anni Ottanta e Novanta
– COrpus Dinamico dell'Italiano Scritto ( Codis )
– permette la selezione di sottocorpora
http://corpora.dslo.unibo.it/coris_ita.html
Corpus La reppubblica (Bologna Forlì) 2004
• corpus di italiano giornalistico
pos-tagged
lemmatized .
– categorized in terms of genre and topic
General labels:
Topic labels:
.
news-report and comment;
church, culture, economics,
education, news, politics, science,
society, sport, weather.
il Web come un corpus
NUNC "NewsgroupsUseNet Corpora".
•
Corpus multilingue basato sulla lingua dei newsgroups (oltre 600 milioni
di parole per ogni lingua) (It. De. Fr. En. Es. Ma. Su. Ee. Pt.) .
•
Corpus generico di lingua italiana:
–
–
NUNC Italiano (I parte)
NUNC Italiano (II parte)
•
•
•
•
•
NUNC Cucina
NUNC Motori
NUNC Foto
NUNC Foto
NUNC Cinema
M. Barbera , S. Colombo, E. Corino, C. Marello,
http://www.corpora.unito.it
web corpora
WaCky Web-as-Corpus kool ynitiative,
• ITWAC: a 2 billion word corpus constructed from the
Web
– limiting the crawl to the .it domain
– using as seeds
• medium-frequency words from the Repubblica corpus
• basic Italian vocabulary lists.
•
•
UKWAC: a 2 billion word corpus constructed from the Web limiting the crawl to the
.uk domain and using medium-frequency words from the BNC as seeds.
DEWAC: a 1.7 billion word corpus constructed from the Web limiting the crawl to the
.de domain and using using medium-frequency words from the SudDeutsche Zeitung
corpus and basic German vocabulary lists as seed.
• WEBBIT è un corpus di pagine Web
italiane che contiene circa 150 millioni di
parole.
• On line con strumenti di ricerca
•
Serge Sharoff. 2006. Creating general-purpose corpora using
automated aearch engine queries. In Baroni e Bernardini (a cura di),
Wacky! Working Papers on the Web as Corpus. Bologna: Gedit. 63-98
Requisiti RIDIRE e strategia di
costruzione del web corpus
• Uso della lingua
• Fraseologia
• Domini d’uso
Strategia di CRAWLING di RIDIRE
• A) domini nei quali la lingua si caratterizza per
scelte legate al suo uso funzionale. All’interno
di ciascun “dominio funzionale” compaiono
documenti appartenenti a qualsiasi dominio
semantico possible
• B) domini semantici che identificano i campi
dell’eccellenza italiana nel mondo:
Domini semantici di eccellenza
italiana nel mondo (900 MLN)
1- Cucina
(100 MLN) TO
2- Letteratura e Teatro
3- Architettura e design
4- Sport
5- Moda
(100 MLN) NA
(100 MLN)
(100 MLN)
(100 MLN)
6- Musica
7-Religione
8- Cinema
9- Arti figurative
(100 MLN) RO
(100 MLN)
(100 MLN)
(100 MLN)
Domini funzionali
– Domini d’uso funzionale (1000 MLN)
• Informazione
400 MLN TO
• Amministrazione & Legislazione 300 MLN FI
• Economia e Affari
300 MLN SI
Risorsa dinamica di rete vs corpus di riferimento
statico.
• la risorsa dinamica non necessita la determinazione
preteoretica del peso di ciascun dominio in un sampling
• dato un insieme comunque vasto di domini
rappresentati, la risorsa dinamica consentirà l’estrazione
di un numero illimitato di corpora con bilanciamenti o
selezioni diverse, a seconda delle esigenze dell’utente
• La risorsa può crescere e modificarsi nel tempo, come la
rete
– Aggiornamento a releases
Analisi del sito
•
Come è strutturato il sito?
– Contenuto delle varie sezioni
– Analisi delle URL delle risorse che
corrispondono alle sezioni
– Formato delle risorse che si intendono
crawlare
Crawling
• Seeds
• Identificare i contenuti appropriati
nell’insieme delle informazioni contenute
in un sito
• Identificazione dei formati desiderati
• Limite minimo di testualità in parole
• Assegnazione di metadato
Esempio
Sito della ASL di Milano
– Dominio funzionale: Amministrazione
– Homepage:
http://www.asl.milano.it/user/Homepage.a
spx
Usiamo la homepage come seed
– Primo passaggio: controllare i link che sono presenti nella
pagina usata come seed
– Questi link corrispondono alle URL inizialmente inserite
nella coda delle risorse da trattare
Sottosezioni e URL
GUIDA AI SERVIZI
http://www.asl.milano.it/user/Default.aspx?SEZ=9
DIPARTIMENTI E UFFICI
• AREE RISERVATE
• SERVIZI PER
Analisi dei contenuti:
sottosezioni
•
GUIDA AI SERVIZI (SEZ=9)
– Contiene delle risorse testuali piuttosto
limitate; sono presenti dei link alle risorse
della sezione “Dipartimenti e Uffici”
– Esempi:
http://www.asl.milano.it/user/Default.aspx?SEZ=9&PAG=208&NOT=689
sottosezioni
•
DIPARTIMENTI E UFFICI (SEZ=2)
– Contiene risorse di vario tipo, che
presentano l'offerta dei servizi in modo
dettagliato; ci sono anche pagine di
raccordo, mappe, ed elenchi con scarso
contenuto testuale
– Esempi:
http://www.asl.milano.it/user/Default.aspx?SEZ=2&PAG=71
(SCARSA TESTUALITà)
http://www.asl.milano.it/user/Default.aspx?SEZ=2&MOD=VARUFF&PRES
TAZ=Consultorio+Familiare (ELENCO)
http://www.asl.milano.it/user/Default.aspx?SEZ=2&PAG=18
(PAGINA DI RACCORDO)
sottosezioni
• AREE RISERVATE (SEZ=7)
– Non sono accessibili dal crawler
• SERVIZI PER (SEZ=10)
– Contiene pagine in cui sono presenti dei
link ai contenuti delle sezioni “Guida ai
servizi” e “Dipartimenti e uffici”,
organizzati secondo aree tematiche (“a
chi si rivolgono i servizi”)
Strategia di crawling
•
•
Vengono escluse dalla navigazione le URL facenti
parti delle sezioni “Aree riservate” e “Servizi per”
Verranno navigate e salvate solo le URL che
contengono le substring SEZ=2 (“Dipartimenti e
uffici”) e SEZ=9 (“Guida ai servizi”)
– Non è possibile escludere automaticamente i
documenti che fanno parte di queste sezioni, ma
che non sono adeguati dal punto di vista dei
requisiti (es. di testualità)
– Questi possono essere cancellati dal DB in fase
di revisione del lavoro
Formato delle risorse
•
Alcune pagine della sezione “Dipartimenti e uffici”
contengono della “modulistica” in formato pdf
– moduli stampabili per le richieste da fare alla
ASL
Tipicamente, i testi contenuti nella modulistica non
sono testi completi (spazi vuoti da riempire)
– Esclusa dal crawling
(opzione: “Scelta formato risorse”)
•
validazione delle risorse
• Parte del lavoro consiste nel selezionare, tra le risorse
scaricate, quelle aderenti ai requisiti, e di scartare
quelle non adeguate
– Operazione da eseguire manualmente, dopo che le
risorse sono state mappate sul DB
• Una buona analisi preliminare del sito risparmia
grande parte del lavoro di selezione/eliminazione delle
risorse crawlate
Pagine web e “testo”
• Pulizia pagine: definizione di ciò che è
testo (codici html, immagini, banner,
menù, testo ripetuto, intestazioni, link)
• Duplicazione pagine
• Pagine effimere
Pulizia
• Validazione dei pulitori
– NCleaner
– Readebility
– Alchemy
• Test bed corpus sui domini di ridire
(pagina web / testo estratto)
– Precision & Recall sulle liste di frequenza
– Levenshtein measure
Duplicazione
• Hasch
• Hasch delle keywords
Strumenti di estrazione
dell’informazione linguistica
• Sfruttare e integrare tecnologie linguistiche
standard
• Le presenta in modo funzionale alle esigenze
degli apprendenti
– Estrarre da corpus l’informazioni sull’uso linguistico
italiano
• Problema delle interfacce utente/i
Le principali informazioni linguistiche
•
Concordanze
per lemma e per forma
•
Colligation;
•
PoS pattern;
•
Collocation
– log-likelihood
– mutual information,
•
CQP & espressioni regolari
•
Liste di frequenza (per sottocorpora)
•
•
•
Definizione della lunghezza del contesto dei risultati della query
Ordinamento per contesto sinistro e destro (tipi di ordinamento)
Tipizzazione
Queries
Colligation (per lemma e per forma)
Associazione tra concetti
Possibili costrutti grammaticali di un lessema
Modalità linguistiche di associazione tra due
lessemi
Variazione d’uso su domini linguistici
differenti (per lemma e per forma)
Concordanze
Collocate
colligations
• Esempi di scelta delle preposizioni
CoRIS
concordanze e criteri di
ordinamento dei risultati
• per forme
– mangiare
– mangiare + con
• contesto destro e sinistro
– ordine alfabetico
COLLIGATIONS da corpus NUNC
[lemma='stare'][pos='PRE'][pos='VER:infi']
Colligation
Corpus:
ItWaC (1,7 miliardi di tokens; incluso nel CQS Sketch Engine,
http://www.sketchengine.co.uk/)
Query: lemma “augurare” + preposizione
Lei è vissuto tanto, e le
Il Sindaco Formentini: "Mi
Vi
Mi
assistere a una telenovela,
di ridiscutere tutto, vi
e altrettanto
traumi a nessuno, mi
Le
tuttavia mi
Mi
Almeno mi
Un analogo sforzo si è
auguro di
auguro di
auguro di
auguro di
auguro a
auguro di
Auguro a
auguro a
auguro di
auguro di
auguro per
auguro di
auguro di
augurato per
vivere ancora tanto
confrontarmi con persone di valore
essere coraggiosi e di affrontare
non arrivare fuori tempo massimo
Zenga una lunga vita sportiva
farlo con successo
Minoli che vada bene anche a lui
questa madre che possa presto tornare
trovare una soluzione amichevole
trovare una copia di quel film
il bilancio della nuova Rai
poter migliorare in gara.
non essere un ingenuo
combattere la criminalità organizzata
Colligation
• Statistiche sui “tipi”
• Occorrenze totali: 2603
• Tipi:
occ.
%
di
a
per
con
in
da
"altro"
1761
539
127
64
62
24
26
67,7
20,7
4,9
2,5
2,4
0,9
1,0
Associazione tra concetti
Associazione tra concetti (1)
• Query:
• lemma “andare”
• contesto destro: lemma “mare” (distanza: 1-3 tokens)
• Tipi:
al
per
a
verso il
in
tutti al
nel
dal
sul
oltre il
occ.
1509
223
110
68
55
26
17
17
12
10
%
68,0
10,1
5,0
3,1
2,5
1,2
0,8
0,8
0,5
0,5
Associazione tra concetti (2)
• Query:
• lemma “andare”
• contesto destro: lemma “montagna” (distanza: 1-3 tokens)
• Tipi:
in
sulla
alla*
verso la
dalla
nella
su in
tutti in
dalla
su una
occ.
398
51
47
14
11
9
5
4
4
3
%
66,2
8,5
7,8
2,3
1,8
1,5
0,8
0,7
0,7
0,5
Variazione d’uso su domini
linguistici differenti
Verifico a cosa si riferisce il lemma in un dominio:
- è ciò che credo?
- a cosa altro si riferisce?
• Corpus:
• Coris/codis (100 milioni di tokens;
http://corpora.dslo.unibo.it/coris_ita.html)
• Subcorpora:
•
•
•
•
•
•
Stampa (fino a 20 milioni di tokens)
Narrativa (fino a 13 milioni di tokens)
Prosa accademica (fino a 5 milioni di tokens)
Prosa giuridico-amministrativa (fino a 4 milioni di tokens)
Miscellanea (fino a 4 milioni di tokens)
Ephemera (fino a 2 milioni di tokens)
Query: “articolo”
Subcorpus: narrativa
Una frase che non ha detto . Un articolo che ha scritto . - Era diventato giornalista
sa , e disse che aveva letto un articolo di Monteiro Rossi sulla morte , e poi disse
rcheologici . A proposito di un articolo nel giornale locale relativo al furto in una
ere svogliatamente . ( r ) Il : articolo determinativo ; carteggio : sostantivo ;
comunicazione telepatica . L ' articolo sottolineava come questa dote diventava
scritto per " il manifesto " un articolo in cui osavo mettere in dubbio il genio di
a , pubblicò in prima pagina un articolo dove de Rougemont era definito un impostore
ta scelta dagli esperti , in un articolo diffuso su scala nazionale , come l ' ultima
cato . Ci doveva essere qualche articolo di legge che impedisse a una ragazza dalle
va leggere la didascalia né l ' articolo che accompagnavano la foto , ma l ' immagine
ccupava solo di stabilire quale articolo del Codice Penale fosse stato offeso , e il
nche se in modo ordinato» . L ' articolo chiarì che non era successo niente di più gr
na risata . Ma la lettera e l ' articolo erano riusciti ad allentare la benda che mi
rebbe fare un bell ' effetto un articolo sui familiari che ti pregano di non
a 13 e mettendosi a leggere l ' articolo . Parlava d ' un alto magistrato libanese ,
Query: “articolo”
Subcorpus: prosa giuridico-amministrativa
in l . 5 giugno 1998 , n . 176 . Articolo 25 Art . 25 . Mutui per la realizzazio
tuale massima del contributo B . Articolo 16 1 . Qualora , per una determinata
econdo la procedura di cui all ' articolo 17 , che siano organizzati a condizioni
n . 528 , come sostituito dall ' articolo 2 della legge 19 aprile 1990 , n . 85 .
competenza materiale ) . Con l ' articolo 235 si viene a colmare questa lacuna in
dizione di gara , a norma dell ' articolo 20 , paragrafo 2 ; d ) la mancata
posizioni del presente decreto . Articolo 20 Art . 20 . Pagamenti rateali . 1 . Le
serie di oggetti indicate nell ' articolo 2 , comma 1 , lettera c ) , dichiarate a
ssere prolungati adeguatamente . Articolo 14 1 . Nel caso in cui l ' urgenza renda
a data di spedizione del bando . Articolo 16 Negli appalti di lavori indetti da
erazioni imponibili di cui all ' articolo 2 della direttiva 77/388 / CEE del
cost . 26 febbraio 1948, n . 5. Articolo 17 Art . 17. ( Omissis ) ( 1). ( 1)
ato dal regolamento di cui all ' articolo 58 , comma 3 e dai regolamenti di cui all
dei lavori pubblici di cui all ' articolo 2 , comma 1 , qualora : 1 ) sia prevalen
to sono adottate all ' unanimità Articolo 5 1 . Il bilancio dell ' AEP è gestito da
Query: “lungo”
http://dev.sslmit.unibo.it/corpora/query.php?mode=simple&path=&name=Repubblica
g0au7h51
ricerca per dominio: economia
ricerca per dominio: sport
Variazione d’uso su domini
linguistici differenti
• Collocate
• Mutual Information: misura di associazione lessicale che
premia l’associazione tra parole semanticamente piene
• Contesto: ± 5 tokens
• Differenziazione del corpus design:
1. Prosa giuridico-amministrativa (4 milioni di tokens)
2. Stampa (20 milioni di tokens)
3. Generalista (prosa accademica, letteratura, miscellanea,
ephemera; 24 milioni di tokens)
Collocate di “prevede”
giuridicoamministrativo
1
2
3
4
5
6
7
8
incompatibilità
espressamente
convenzione
obbligo
direttiva
norma
disciplina
regolamento
stampa
canone
espressamente
intesa
assunzione
progetto
istituzione
sanzioni
normativa
generalista
pacchetto
realizzazione
partenza
progetto
programma
possibilità
legge
uso
Collocate di “dispone”
giuridicoamministrativo
1
2
3
4
5
6
7
8
ordinanza
provvedimento
atti
giudice
art
comma
legge
attraverso
stampa
strumenti
chi
cui
rete
milioni
articolo
legge
infatti
generalista
cui
chi
di
si
un
se
una
non
Collocate selezionate x POS
NUNC lemmi
• non ho liste di frequenze non ho dati
relativi (andare vs andare bene)
– [lemma= 'andare']
– [lemma= 'andare'] [word= 'bene']
– [lemma='tagliare'][]{0,3}[lemma='carne']

Il Progetto RIDIRE.it

Transcript

Documenti analoghi

PosterSLI Bolzano14

Leggi le caratteristiche

le porte del - Parrocchia Corpus Domini

Informatica e Linguistica… - Dipartimento di Informatica

Esplorare un corpus con CWB

Proposte didattiche attorno ad un corpus di testi

Capitolo 4 – L`analisi ed esplorazione dei corpora

Web Corpora

Il Perugia Corpus - Dipartimento di Filologia, Letteratura e Linguistica