Il Progetto RIDIRE.it
Transcript
Il Progetto RIDIRE.it
Il Progetto RIDIRE.it (Risorsa Dinamica Italiana di Rete) Massimo Moneglia LABLITA (Firenze) Dottorato di Linguistica, UNIROMA III, 15 aprile 2010 Progetto RIDIRE.it • Repository dei contenuti della rete più rappresentativi per la vita sociale e la cultura italiana • Sfruttamento delle potenzialità dei grandi corpora per il consolidamento del possesso della lingua italiana negli apprendenti l’italiano L2 • Infrastruttura di rete obiettivi • accesso selettivo a contenuti che rappresentano l’uso linguistico italiano sia dal punto di vista funzionale sia dal punto di vista dell’eccellenza italiana nel mondo. • strumenti di estrazione dell'informazione linguistica che consentono l’apprezzamento dell’uso linguistico italiano nei domini d’uso rappresentati. • modelli di utilizzo dell’informazione estratta da corpus per l’acquisizione di L2 UTENTI POTENZIALI • Infrastruttura rivolta a professori di lingua e cultura italiana nel mondo • Soggetti che vogliano potenziare le loro capacità nell’uso linguistico italiano attraverso l’ accesso selettivo alla fraseologia italiana per dominio • formazione (studenti) • consolidamento delle radici identitarie (emigrati di seconda e terza generazione) • lavoro e affari (cittadini di paesi in zone di espansione dell’italiano). CONSORZIO Coordinamento: Società internazionale di linguistica e filologia italiana (SILFI) – UNIFI (LABLITA) – UNIFI (DSI) – UNITO Dip. scienze letterarie e Filologiche – UNIROMA3 (Dip. Italianistica) – UNINA (Dip. Filologia Moderna) – UNISI (Dip. Economia) – Progetto finanziato dal Fondo Italiano per la Ricerca di Base – Progetti nel campo della linguistica 2009-2012 Agenda • Perché un web corpus per l’italiano nel contesto culturale globale del web • le risorse linguistiche italiane disponibili • Design di RIDIRE • Il crawling dei contenuti dalla rete • Il processamento dell’informazione • Infrastruttura computazionale di rete • Informazione linguistica derivata per la concezione di modelli di utilizzo per L2 Perché un web corpus La rete è grande e è cresciuta rapidamente • Google index in 1998 26 million pages • Google index by 2000 reached one billion mark. • 29.7 billion pages on the World Wide Web as of February 2007. – 1 trillion (as in 1,000,000,000,000) unique URLs on the web at once! in 2008 La rete • Internet è attualmente il più grande deposito di informazione linguistica esistente • E’ insieme ambiente e mezzo privilegiato dell’uso di una lingua – lo spazio entro il quale sia gli usi funzionali sia gli usi creativi del linguaggio sono esercitati con sempre maggior frequenza. – Consente un accesso e un utilizzo più frequente della lingua scritta nella popolazione IL WEB è MULTILINGUE Lingua cinese mandarino inglese hindi + urdu spagnolo russo bengali arabo portoghese maleo-indonesiano giapponese francese tedesco … Italiano Lingue romanze > 800 milioni N. di parlanti 1 miliardo 1 miliardo 900 milioni 450 milioni 320 milioni 250 milioni 250 milioni 200 milioni 160 milioni 145 milioni 125 milioni 125 milioni 75 milioni Intorno all’anno 2000: INGLESE AL 70% 2002-2003 ESPLOSIONE DEL WEB 56% Chart of Web content (milions of webpages by language) • English 1142,5 56,4% • German 156,2 7,7% • French 113,1 5,6% Languages used to access Google • Japanese 98,3 4,9% in January 2002 (vs 2001) • Spanish 59,9 3,0% English 57% (64%) • Chinese 48,2 2,4% German 12% (9%) • Italian 41,1 2,0% Japanish 7% (8%) Spanish 6% (5%) • Dutch 38,8 1,9% French 5% (4%) • Russian 33,7 1,7% Chinese 3% (1%) • Korean 30,8 1,5% Italian 2% (2%) • Portuguese 29,4 1,5% Other 8% (4% • Swedish 15,1 0,7% • Polish 14,8 0,7% • Danish 12,3 0,6% • Czech 11,5 0,6% • Turkish 4,9 0,2% • Hungarian 4,1 0,2% • Greek 2,0 0,1% • Other 168,0 8,3% DICEMBRE 2008 • l’inglese è sceso sotto al 30% • Tanto più cresce quanto più si differenzia linguisticamente – Correlazione inversa alla crescita del web • Novembre 2009 “domini in alfabeti non latini” Il web è multilingue • A livello degli utenti • A livello dei contenuti • L’inglese, lingua franca nel mondo globale , non cancella la diversità linguistica nella società dell’informazione • Ma l’inglese è la lingua dell’universo di riferimento globale • L’italiano non è lingua globale • l’italiano è presente nell’universo globale della rete • le parole chiave dell’italiano sono relative ad un universo culturale ad un insieme di usi funzionali US / GLOBAL http://www.google.com/intl/en/press/zeitgeist2008/ • L’italiano ha una vasta presenza di comunità semiitaliofone nel mondo • L’italiano ha un patrimonio culturale attuale e una eredità culturale di valore globale • per garantire il ruolo di una lingua e di una cultura nella società dell’informazione – è necessario garantire accessibilità ai suoi contenuti di rete – è necessario rafforzare la possibilità di fruizione e utilizzo – garantire gli strumenti per il suo apprendimento Le risorse linguistiche Corpora Corpora in rete Web corpora I primi corpora di riferimento • Lessico di frequenza della lingua italiana contemporanea (LIF), (Centro Nazionale Universitario di Calcolo elettronico) di Pisa 1971 circa 5.000 lemmi ordinati per frequenza spoglio di testiscritti tra il 1947 e il 1968 per 500.000 parole (teatro, romanzi, cinema, periodici, sussidiari) Non disponibile. • Lessico di frequenza dell'italiano parlato (LIP), curato da De Mauro, Mancini, Vedovelli e Voghera (1993) circa 500.000 parole da, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, (57 ore di parlato) Ora on line nel BAdip URL: http://languageserver.unigraz.at/badip/badip/20_corpusLip.php Storici • Tesoro della lingua italiana delle origini (TLIO) • database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI): URL: http://tlio.ovi.cnr.it/TLIO/ • CT "Corpus Taurinense" • Progetti (COFIN), condotti da Bice Mortara Garavelli e Lorenzo Renzi OVI, IMS, DimaLogic.. Corpus di Italiano antico (XIII secolo, Firenze) 259,299 tokens 21,087 types 7,599 lemmas. Interamente lemmatizzato, POS-tagged secondo specifiche EAGLES. Annotato per corpus design (generi letterari) e forme filologiche. http://www.corpora.unito.it/ • Letteratura Italiana Zanichelli Picchi & Stoppelli CD-rom • Contiene il testo integrale di 1000 opere della letteratura italiana. 245 autori dalle origini fino a D’Annunzio e Pirandello più 19 anonimi, 4 antologie poetiche e l'intera serie delle riviste Il Caffè e Il Conciliatore • Corpus e Lessico di Frequenza dell'Italiano Scritto (ColFI) 3.150.075 occorrenze lessicali tratte da quotidiani, periodici e libri di varia natura bilanciate secondo le letture degli italiani. . http://www.istc.cnr.it/material/database/colfis/ • Lessico di frequenza dell'italiano radiofonico (LIR) è un progetto di analisi del lessico e del corpus del parlato radiofonico nato nel 1998. Il corpus di circa 60 ore, è trascritto ortograficamente, allineato all'audio mediate software apposito, lemmatizzato e pubblicato su cd-rom. Accademia della Crusca • Corpus di italiano televisivo (CIT) Perugia- attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI). URL: http://www.sspina.it/cit/cit.htm • Athenaeum Corpus corpus di italiano scritto accademico, dell'Università di Torino; POS-taggati e classificati per argomento e tipo testuale (articoli della rivista L'Ateneo e del notiziario Dall'Universita', documenti ufficiali, e-mail prodotte dai vari dipartimenti e uffici amministrativi) / 306.927 token; 32.221 type; 11.748 lemmas • Jus Jurium (in progress) è un corpus in lingua italiana che intende coprire la totalità dell'universo di discorso legale oggi corrente in Italia. Non si tratta di un database giuridico essendo le sue finalità precipuamente linguistiche. Il corpus è etichettato per parti del discorso ed ha un robusto markup testuale e diplomatico. Ancora non interrogabile. http://www.corpora.unito.it http://www.bmanuel.org/projects/ • VALICO "Varietà di Apprendimento della Lingua Italiana: Corpus Online" e VINCA "Varietà di Italiano di Nativi Corpus Appaiato". La risorsa è consultabile ed interrogabile on-line. Sotto la supervisione di Manuel Barbera, Carla Marello ed Elisa Corino, VALICO è un corpus multilingue di e per apprendenti di italiano come L2. VINCA è il corpus di testi scritti da italofoni appaiato a VALICO. formato da testi trascritti annotati per parte del discorso, per tipo testuale, per lingua madre dell'apprendente. Sono state raccolte per lo più composizioni libere, traduzioni e composizioni scritte elicitate a partire da stimoli iconici. • Il bilanciamento mira ad avere in VALICO la stessa quantità di testi ( e token) per gruppi di studenti con lingua madre o L1 più rappresentata fra quelle presenti nel corpus e cioè inglese, francese, spagnolo, tedesco. E anche una stessa (minore) quantità di testi per gruppi di studenti con lingue madri meno rappresentate come maltese, polacco, giapponese, arabo, serbo, portoghese, ungherese. http://www.bmanuel.org/projects/ Corpus LABLITA-C-ORAL-ROM • Corpus di Italiano Parlato spontaneo adulto in situazioni comunicative diafasiche diverse raccolto in Toscana a partire dal 1965 (800.000 parole) • Corpus dell’acquisizione nella fase del primo apprendimento (18-36 mesi). • Il corpus allineato C-ORAL-ROM italian nel corpus comparabile del parlato romanzo • API/AVIP/IPar (laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l’Orientale di Napoli, il Politecnico di Bari e l’Università del Piemonte Orientale) – – • materiale fonico spontaneo di lingua italiana, conformi alle specifiche di codifica e annotazione di Eagles. Il materiale dei corpora (files e software) è disponibile su cd-rom, distribuiti dal CIRASS e via ftp sempre dal sito del CIRASS (ftp.cirass.unina.it). URL: http://www.cirass.unina.it/ Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) (audio, etichettatura e documentazione) – circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato raccolto - parlato radiotelevisivo (notiziari, interviste, talk shows); - parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); - parlato letto da parlanti non professionisti (20 frasi lette a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano) registrato in camera anecoica • URL: http://www.clips.unina.it/. Risorse con ricerche accessibili in rete – CoRIS/Codis – Corpus la repubblica – NUNC – Webbit – Itwak I corpora per la consultazione e la ricerca on line • Corpus di Italiano Scritto contemporaneo (CORIS/CODIS) – COrpus di Riferimento dell'Italiano Scritto ( Coris ) . • Il corpus contiene 100 milioni di parole aggiornato ogni due anni • prevalentemente di narrativa prodotta negli anni Ottanta e Novanta – COrpus Dinamico dell'Italiano Scritto ( Codis ) – permette la selezione di sottocorpora http://corpora.dslo.unibo.it/coris_ita.html Corpus La reppubblica (Bologna Forlì) 2004 • corpus di italiano giornalistico pos-tagged lemmatized . – categorized in terms of genre and topic General labels: Topic labels: . news-report and comment; church, culture, economics, education, news, politics, science, society, sport, weather. il Web come un corpus NUNC "NewsgroupsUseNet Corpora". • Corpus multilingue basato sulla lingua dei newsgroups (oltre 600 milioni di parole per ogni lingua) (It. De. Fr. En. Es. Ma. Su. Ee. Pt.) . • Corpus generico di lingua italiana: – – NUNC Italiano (I parte) NUNC Italiano (II parte) • • • • • NUNC Cucina NUNC Motori NUNC Foto NUNC Foto NUNC Cinema M. Barbera , S. Colombo, E. Corino, C. Marello, http://www.corpora.unito.it http://www.bmanuel.org/projects/ web corpora WaCky Web-as-Corpus kool ynitiative, • ITWAC: a 2 billion word corpus constructed from the Web – limiting the crawl to the .it domain – using as seeds • medium-frequency words from the Repubblica corpus • basic Italian vocabulary lists. • • UKWAC: a 2 billion word corpus constructed from the Web limiting the crawl to the .uk domain and using medium-frequency words from the BNC as seeds. DEWAC: a 1.7 billion word corpus constructed from the Web limiting the crawl to the .de domain and using using medium-frequency words from the SudDeutsche Zeitung corpus and basic German vocabulary lists as seed. • WEBBIT è un corpus di pagine Web italiane che contiene circa 150 millioni di parole. • On line con strumenti di ricerca • Serge Sharoff. 2006. Creating general-purpose corpora using automated aearch engine queries. In Baroni e Bernardini (a cura di), Wacky! Working Papers on the Web as Corpus. Bologna: Gedit. 63-98 Requisiti RIDIRE e strategia di costruzione del web corpus • Uso della lingua • Fraseologia • Domini d’uso Strategia di CRAWLING di RIDIRE • A) domini nei quali la lingua si caratterizza per scelte legate al suo uso funzionale. All’interno di ciascun “dominio funzionale” compaiono documenti appartenenti a qualsiasi dominio semantico possible • B) domini semantici che identificano i campi dell’eccellenza italiana nel mondo: Domini semantici di eccellenza italiana nel mondo (900 MLN) 1- Cucina (100 MLN) TO 2- Letteratura e Teatro 3- Architettura e design 4- Sport 5- Moda (100 MLN) NA (100 MLN) (100 MLN) (100 MLN) 6- Musica 7-Religione 8- Cinema 9- Arti figurative (100 MLN) RO (100 MLN) (100 MLN) (100 MLN) Domini funzionali – Domini d’uso funzionale (1000 MLN) • Informazione 400 MLN TO • Amministrazione & Legislazione 300 MLN FI • Economia e Affari 300 MLN SI Risorsa dinamica di rete vs corpus di riferimento statico. • la risorsa dinamica non necessita la determinazione preteoretica del peso di ciascun dominio in un sampling • dato un insieme comunque vasto di domini rappresentati, la risorsa dinamica consentirà l’estrazione di un numero illimitato di corpora con bilanciamenti o selezioni diverse, a seconda delle esigenze dell’utente • La risorsa può crescere e modificarsi nel tempo, come la rete – Aggiornamento a releases Analisi del sito • Come è strutturato il sito? – Contenuto delle varie sezioni – Analisi delle URL delle risorse che corrispondono alle sezioni – Formato delle risorse che si intendono crawlare Crawling • Seeds • Identificare i contenuti appropriati nell’insieme delle informazioni contenute in un sito • Identificazione dei formati desiderati • Limite minimo di testualità in parole • Assegnazione di metadato Esempio Sito della ASL di Milano – Dominio funzionale: Amministrazione – Homepage: http://www.asl.milano.it/user/Homepage.a spx Usiamo la homepage come seed – Primo passaggio: controllare i link che sono presenti nella pagina usata come seed – Questi link corrispondono alle URL inizialmente inserite nella coda delle risorse da trattare Sottosezioni e URL GUIDA AI SERVIZI http://www.asl.milano.it/user/Default.aspx?SEZ=9 DIPARTIMENTI E UFFICI http://www.asl.milano.it/user/Default.aspx?SEZ=2 • AREE RISERVATE http://www.asl.milano.it/user/Default.aspx?SEZ=7 • SERVIZI PER http://www.asl.milano.it/user/Default.aspx?SEZ=10 Analisi dei contenuti: sottosezioni • GUIDA AI SERVIZI (SEZ=9) – Contiene delle risorse testuali piuttosto limitate; sono presenti dei link alle risorse della sezione “Dipartimenti e Uffici” – Esempi: http://www.asl.milano.it/user/Default.aspx?SEZ=9&PAG=208&NOT=689 http://www.asl.milano.it/user/Default.aspx?SEZ=9&PAG=208&NOT=694 Analisi dei contenuti: sottosezioni • DIPARTIMENTI E UFFICI (SEZ=2) – Contiene risorse di vario tipo, che presentano l'offerta dei servizi in modo dettagliato; ci sono anche pagine di raccordo, mappe, ed elenchi con scarso contenuto testuale – Esempi: http://www.asl.milano.it/user/Default.aspx?SEZ=2&PAG=71 http://www.asl.milano.it/user/Default.aspx?SEZ=2&PAG=18&NOT=26 (SCARSA TESTUALITà) http://www.asl.milano.it/user/Default.aspx?SEZ=2&MOD=VARUFF&PRES TAZ=Consultorio+Familiare (ELENCO) http://www.asl.milano.it/user/Default.aspx?SEZ=2&PAG=18 (PAGINA DI RACCORDO) Analisi dei contenuti: sottosezioni • AREE RISERVATE (SEZ=7) – Non sono accessibili dal crawler • SERVIZI PER (SEZ=10) – Contiene pagine in cui sono presenti dei link ai contenuti delle sezioni “Guida ai servizi” e “Dipartimenti e uffici”, organizzati secondo aree tematiche (“a chi si rivolgono i servizi”) Strategia di crawling • • Vengono escluse dalla navigazione le URL facenti parti delle sezioni “Aree riservate” e “Servizi per” Verranno navigate e salvate solo le URL che contengono le substring SEZ=2 (“Dipartimenti e uffici”) e SEZ=9 (“Guida ai servizi”) – Non è possibile escludere automaticamente i documenti che fanno parte di queste sezioni, ma che non sono adeguati dal punto di vista dei requisiti (es. di testualità) – Questi possono essere cancellati dal DB in fase di revisione del lavoro Formato delle risorse • Alcune pagine della sezione “Dipartimenti e uffici” contengono della “modulistica” in formato pdf – moduli stampabili per le richieste da fare alla ASL http://www.asl.milano.it/user/Default.aspx?SEZ=2&PAG=16&NOT=38 Tipicamente, i testi contenuti nella modulistica non sono testi completi (spazi vuoti da riempire) – Esclusa dal crawling (opzione: “Scelta formato risorse”) • validazione delle risorse • Parte del lavoro consiste nel selezionare, tra le risorse scaricate, quelle aderenti ai requisiti, e di scartare quelle non adeguate – Operazione da eseguire manualmente, dopo che le risorse sono state mappate sul DB • Una buona analisi preliminare del sito risparmia grande parte del lavoro di selezione/eliminazione delle risorse crawlate Pagine web e “testo” • Pulizia pagine: definizione di ciò che è testo (codici html, immagini, banner, menù, testo ripetuto, intestazioni, link) • Duplicazione pagine • Pagine effimere Pulizia • Validazione dei pulitori – NCleaner – Readebility – Alchemy • Test bed corpus sui domini di ridire (pagina web / testo estratto) – Precision & Recall sulle liste di frequenza – Levenshtein measure Duplicazione • Hasch • Hasch delle keywords Strumenti di estrazione dell’informazione linguistica • Sfruttare e integrare tecnologie linguistiche standard • Le presenta in modo funzionale alle esigenze degli apprendenti – Estrarre da corpus l’informazioni sull’uso linguistico italiano • Problema delle interfacce utente/i Le principali informazioni linguistiche • Concordanze per lemma e per forma • Colligation; • PoS pattern; • Collocation – log-likelihood – mutual information, • CQP & espressioni regolari • Liste di frequenza (per sottocorpora) • • • Definizione della lunghezza del contesto dei risultati della query Ordinamento per contesto sinistro e destro (tipi di ordinamento) Tipizzazione Queries Colligation (per lemma e per forma) Associazione tra concetti Possibili costrutti grammaticali di un lessema Modalità linguistiche di associazione tra due lessemi Variazione d’uso su domini linguistici differenti (per lemma e per forma) Concordanze Collocate colligations • Esempi di scelta delle preposizioni CoRIS concordanze e criteri di ordinamento dei risultati • per forme – mangiare – mangiare + con • contesto destro e sinistro – ordine alfabetico COLLIGATIONS da corpus NUNC [lemma='stare'][pos='PRE'][pos='VER:infi'] Colligation Corpus: ItWaC (1,7 miliardi di tokens; incluso nel CQS Sketch Engine, http://www.sketchengine.co.uk/) Query: lemma “augurare” + preposizione Lei è vissuto tanto, e le Il Sindaco Formentini: "Mi Vi Mi assistere a una telenovela, di ridiscutere tutto, vi e altrettanto traumi a nessuno, mi Le tuttavia mi Mi Almeno mi Un analogo sforzo si è auguro di auguro di auguro di auguro di auguro a auguro di Auguro a auguro a auguro di auguro di auguro per auguro di auguro di augurato per vivere ancora tanto confrontarmi con persone di valore essere coraggiosi e di affrontare non arrivare fuori tempo massimo Zenga una lunga vita sportiva farlo con successo Minoli che vada bene anche a lui questa madre che possa presto tornare trovare una soluzione amichevole trovare una copia di quel film il bilancio della nuova Rai poter migliorare in gara. non essere un ingenuo combattere la criminalità organizzata Colligation • Statistiche sui “tipi” • Occorrenze totali: 2603 • Tipi: occ. % di a per con in da "altro" 1761 539 127 64 62 24 26 67,7 20,7 4,9 2,5 2,4 0,9 1,0 Associazione tra concetti Associazione tra concetti (1) • Query: • lemma “andare” • contesto destro: lemma “mare” (distanza: 1-3 tokens) • Occorrenze totali: 2218 • Tipi: al per a verso il in tutti al nel dal sul oltre il occ. 1509 223 110 68 55 26 17 17 12 10 % 68,0 10,1 5,0 3,1 2,5 1,2 0,8 0,8 0,5 0,5 Associazione tra concetti (2) • Query: • lemma “andare” • contesto destro: lemma “montagna” (distanza: 1-3 tokens) • Occorrenze totali: 601 • Tipi: in sulla alla* verso la dalla nella su in tutti in dalla su una occ. 398 51 47 14 11 9 5 4 4 3 % 66,2 8,5 7,8 2,3 1,8 1,5 0,8 0,7 0,7 0,5 Variazione d’uso su domini linguistici differenti Verifico a cosa si riferisce il lemma in un dominio: - è ciò che credo? - a cosa altro si riferisce? • Corpus: • Coris/codis (100 milioni di tokens; http://corpora.dslo.unibo.it/coris_ita.html) • Subcorpora: • • • • • • Stampa (fino a 20 milioni di tokens) Narrativa (fino a 13 milioni di tokens) Prosa accademica (fino a 5 milioni di tokens) Prosa giuridico-amministrativa (fino a 4 milioni di tokens) Miscellanea (fino a 4 milioni di tokens) Ephemera (fino a 2 milioni di tokens) Query: “articolo” Subcorpus: narrativa Una frase che non ha detto . Un articolo che ha scritto . - Era diventato giornalista sa , e disse che aveva letto un articolo di Monteiro Rossi sulla morte , e poi disse rcheologici . A proposito di un articolo nel giornale locale relativo al furto in una ere svogliatamente . ( r ) Il : articolo determinativo ; carteggio : sostantivo ; comunicazione telepatica . L ' articolo sottolineava come questa dote diventava scritto per " il manifesto " un articolo in cui osavo mettere in dubbio il genio di a , pubblicò in prima pagina un articolo dove de Rougemont era definito un impostore ta scelta dagli esperti , in un articolo diffuso su scala nazionale , come l ' ultima cato . Ci doveva essere qualche articolo di legge che impedisse a una ragazza dalle va leggere la didascalia né l ' articolo che accompagnavano la foto , ma l ' immagine ccupava solo di stabilire quale articolo del Codice Penale fosse stato offeso , e il nche se in modo ordinato» . L ' articolo chiarì che non era successo niente di più gr na risata . Ma la lettera e l ' articolo erano riusciti ad allentare la benda che mi rebbe fare un bell ' effetto un articolo sui familiari che ti pregano di non a 13 e mettendosi a leggere l ' articolo . Parlava d ' un alto magistrato libanese , Query: “articolo” Subcorpus: prosa giuridico-amministrativa in l . 5 giugno 1998 , n . 176 . Articolo 25 Art . 25 . Mutui per la realizzazio tuale massima del contributo B . Articolo 16 1 . Qualora , per una determinata econdo la procedura di cui all ' articolo 17 , che siano organizzati a condizioni n . 528 , come sostituito dall ' articolo 2 della legge 19 aprile 1990 , n . 85 . competenza materiale ) . Con l ' articolo 235 si viene a colmare questa lacuna in dizione di gara , a norma dell ' articolo 20 , paragrafo 2 ; d ) la mancata posizioni del presente decreto . Articolo 20 Art . 20 . Pagamenti rateali . 1 . Le serie di oggetti indicate nell ' articolo 2 , comma 1 , lettera c ) , dichiarate a ssere prolungati adeguatamente . Articolo 14 1 . Nel caso in cui l ' urgenza renda a data di spedizione del bando . Articolo 16 Negli appalti di lavori indetti da erazioni imponibili di cui all ' articolo 2 della direttiva 77/388 / CEE del cost . 26 febbraio 1948, n . 5. Articolo 17 Art . 17. ( Omissis ) ( 1). ( 1) ato dal regolamento di cui all ' articolo 58 , comma 3 e dai regolamenti di cui all dei lavori pubblici di cui all ' articolo 2 , comma 1 , qualora : 1 ) sia prevalen to sono adottate all ' unanimità Articolo 5 1 . Il bilancio dell ' AEP è gestito da Query: “lungo” http://dev.sslmit.unibo.it/corpora/query.php?mode=simple&path=&name=Repubblica g0au7h51 ricerca per dominio: economia ricerca per dominio: sport Variazione d’uso su domini linguistici differenti • Collocate • Mutual Information: misura di associazione lessicale che premia l’associazione tra parole semanticamente piene • Contesto: ± 5 tokens • Differenziazione del corpus design: 1. Prosa giuridico-amministrativa (4 milioni di tokens) 2. Stampa (20 milioni di tokens) 3. Generalista (prosa accademica, letteratura, miscellanea, ephemera; 24 milioni di tokens) Collocate di “prevede” giuridicoamministrativo 1 2 3 4 5 6 7 8 incompatibilità espressamente convenzione obbligo direttiva norma disciplina regolamento stampa canone espressamente intesa assunzione progetto istituzione sanzioni normativa generalista pacchetto realizzazione partenza progetto programma possibilità legge uso Collocate di “dispone” giuridicoamministrativo 1 2 3 4 5 6 7 8 ordinanza provvedimento atti giudice art comma legge attraverso stampa strumenti chi cui rete milioni articolo legge infatti generalista cui chi di si un se una non Collocate selezionate x POS NUNC lemmi • non ho liste di frequenze non ho dati relativi (andare vs andare bene) – [lemma= 'andare'] – [lemma= 'andare'] [word= 'bene'] – [lemma='tagliare'][]{0,3}[lemma='carne']