Relazione Conclusiva della sotto-area Estrazione di Informazione e

Transcript

Relazione Conclusiva della sotto-area Estrazione di Informazione e
Relazione Conclusiva della sotto-area
Estrazione di Informazione e Conoscenza
a cura di Paola Velardi
Dipartimento di Scienze dell'Informazione
Università di Roma "La Sapienza"
1.1 Obiettivi della Sotto_area
Uno degli aspetti importanti del progetto e` lo studio e la realizzazione di sistemi ad agenti per il
reperimento della informazione in tutti i suoi vari aspetti: estrazione e classificazione di conoscenza
da testi e informazione non strutturata in genere, data mining, ovvero astrazione di associazioni da
dati strutturati o semi-strutturati, learning, ovvero sintesi di leggi e schemi generali da esempi.
L'attivita` di questa area e` stata finalizzata alla progettazione e alla realizzazione di agenti
estrattori di conoscenza da fonti non strutturate e da fonti strutturate. Per le fonti non strutturate
uno dei filoni piu` importanti e` quello del progetto di agenti per il filtraggio e la classificazione di
testi estratti dalla rete, basato su tecniche di elaborazione del linguaggio naturale.
1.2 Temi di ricerca affrontati nel secondo anno di progetto
Conformemente agli obiettivi, ogni unità o gruppo di unità ha approfondito aspetti specifici del
tema in esame. Durante il secondo anno di progetto, le varie unità hanno approfondito e
specializzato modelli e paradigmi di estrazione da dati strutturati e non, definiti nel primo anno di
progetto, ed hanno inoltre prodotto vari prototipi e dimostrativi, in alcuni casi frutto di cooperazione
fra più unità.
Sul tema Data Mining e Knowledge Discovery su dati strutturati hanno lavorato diverse unità.
L'unità di Bari ha studiato metodi di apprendimento automatico incrementale da esempi,
incrementandoli con strategie di ragionamento multiple.Ha inoltre definto un metodo per la
presentazione, in funzione dell'utente e del contesto, dei risultati di un processo di Knowledge
Discovery. Una sotto-unità di Torino ha affrontato il problema della scalabilità delle tecniche di
apprendimento automatico su dati strutturati. Una sotto-unità di Pisa si è orientata sulla definizione
di ambienti di modellazione e sviluppo di processi di Knowledge Discovery.
Sul tema dell' estrazione di informazioni da immagini hanno lavorato le unità di Ferrara e Firenze.
Ferrara ha svolto un'analisi comparativa fra varie tecniche di apprendimento automatico e
probabilistico finalizzati ad un problema di identificazione di difetti in immagini di pezzi industriali.
Firenze ha approfondito lo studio di modelli di apprendimento empirico basato su grafici,
applicando i metodi sviluppati, fra l'altro, alla classificazione (in termini di layout) di documenti.
Il problema della classificazione del contenuto di documenti testuali è stato oggetto di analisi da
parte di varie unità. A Pisa, una sotto-unità si è occupata di analisi di documenti su WEB,
classificazione di documenti, question answering. Roma "La Sapienza" ha studiato l'uso di
strategie multiple (basate su apprendimento automatico e apprendimento probabilistico) per
migliorare le prestazioni di sistemi di estrazione di contenuti, Roma "Tor Vergata" ha studiato
modelli di classificazione del testo basati su tecnologie linguistiche (parsing, estrazione di
terminologia e nomi propri).
Di parsing si sono occupati una sotto-unità di Pisa ed una sotto-unità di Torino. Torino si è
concentrata sullo sviluppo di un treebank per la costruzione di parser robusti.
Nel seguito, ciascuna unità o sotto-unità (nel caso di gruppi più numerosi) riassume brevemente i
risultati conseguiti e descrive i dimostrativi realizzati.
2. Contributo dell'Unità Bari
Ricercatori afferenti all'Unità
(gruppo di Apprendimento Automatico):
Floriana Esposito, Antonella Lanza, Donato Malerba, Giovanni Semeraro
(gruppo di Interfacce Intelligenti)
Fiorella de Rosis, Sebastiano Pizzutilo
Assegnisti:
Berardina De Carolis, Nicola Fanizzi, Francesca Lisi
Borsisti:
Gloria De Salve, Stefano Ferilli
2.1. Descrizione del Contributo dell'Unità
Obiettivo 1)
Studio e messa a punto di metodi di apprendimento automatico per estrarre conoscenza da basi di
dati strutturate, semi strutturate e multimediali (testi e immagini), approfondendo i modelli di
apprendimento utili nello scoprire conoscenza a partire da dati grezzi e nel simulare i processi di
ragionamento, raffinamento e revisione della conoscenza appresa.
La ricerca, tesa alla realizzazione di sistemi di integrazione dell'informazione attraverso la scoperta
di sorgenti di conoscenza, la estrazione e la presentazione coerente delle informazioni provenienti
da basi di dati tradizionali, multimediali e basi di conoscenza, ha inteso sia approfondire le tecniche
per estrarre automaticamente conoscenza da basi di dati strutturate e semi-strutturate, in forma di
testi e/o immagini (documenti di varia natura, carte topografiche, mappe etc.), sia sviluppare i
metodi di apprendimento utili nel modellare i processi di ragionamento e di inferenza per mantenere
coerente la conoscenza appresa. L'applicazione di elezione è la realizzazione di un sistema di
integrazione dell'informazione da WEB con l'intento di arrivare a sviluppare un sistema che possa
capire le informazioni di cui dispone e ragionarci su e, nel contempo, sia costruito e mantenuto in
modo distribuito e decentrato.
Descrizione della ricerca eseguita e dei risultati ottenuti:
Nel corso del progetto, il gruppo di Apprendimento Automatico della unità di Bari si è occupato:
1. di approfondire gli aspetti di metodo e dunque di sviluppare nuovi modelli di apprendimento
automatico, operanti su descrizioni riconducibili a linguaggi logici del primo ordine, perché
ritenuti più potenti ai fini della estrazione dell'informazione da testi non strutturati,
2. di valutare la applicabilità e testare la efficacia di noti modelli computazionali di
apprendimento per estrarre informazione da documenti semi-strutturati, come pagine WEB.
In particolare, per quanto riguarda il primo aspetto si è sviluppata una nuova versione del sistema di
apprendimento incrementale da esempi INTHELEX. Il lavoro svolto, sia teorico che pratico, è stato
finalizzato all’ulteriore integrazione, in un sistema di apprendimento induttivo incrementale che
lavora su rappresentazioni simboliche del primo ordine, di strategie di ragionamento multiple. Un
apposito framework è stato concepito e adattato alle caratteristiche di incrementalità del sistema per
far coesistere e cooperare, insieme alla Programmazione Logica Induttiva e Abduttiva, operatori di
Astrazione semantica. Mentre l’abduzione supportava gli operatori induttivi nel completamento
delle nuove osservazioni che si rendono via via disponibili, l’astrazione consente di passare dal
linguaggio delle osservazioni ad uno più potente che, eliminando dettagli inutili ai fini
dell’apprendimento, migliora l’apprendibilità dei concetti stessi. Sul fronte teorico, il modello di
generalizzazione di theta-sussunzione sotto Object Identity, usato per limitare lo spazio di ricerca
delle generalizzazioni induttive senza perdita di potenza espressiva, è stato esteso per poter trattare
anche simboli funzionali; inoltre, un nuovo e più potente modello di generalizzazione (quello di
Implicazione sotto Object Identity) è stato derivato, dandone opportune definizioni e studiandone le
proprietà teoriche (fra cui la decidibilità) e la possibilità di avere operatori di raffinamento “ideali”
(localmente finiti, appropriati e completi). Ulteriori miglioramenti sono stati apportati al sistema per
migliorarne sia l’usabilità che l’efficienza, fattori irrinunciabili per un’applicazione fruttuosa di
questi strumenti a problemi reali e complessi quali sono quelli che ci si è prefissi di affrontare.
L’approfondimento di metodi di apprendimento automatico operanti su descrizioni logiche del
primo ordine ha anche portato allo sviluppo di un nuovo sistema di apprendimento automatico da
esempi in grado di indurre teorie logiche ricorsive nell’ambito del framework induttivo normale
della programmazione logica induttiva. In questo framework l’induzione di teorie ricorsive è un
compito complesso per via della non monotonicità della proprietà di consistenza: l’aggiunta di una
clausola localmente consistente ad una teoria consistente può rendere questa globalmente
inconsistente. È stato condotto uno studio teorico che ha portato a delineare delle soluzioni
computazionali ai principali problemi. In particolare è stata definita una strategia di ricerca
separate-and-parallel-conquer per interfogliare l’apprendimento delle clausole di definizioni
mutuamente ricorsive di predicati. Lo spazio di ricerca esplorato da questa strategia è stato ordinato
in base a un nuovo ordine di generalità, chiamato implicazione generalizzata, che non sia troppo
forte o troppo debole per la classe di teorie logiche ricorsive apprese. Il ripristino della proprietà di
consistenza allorquando l’aggiunta di una clausola localmente consistente rende la teoria logica
appresa globalmente inconsistente si basa su una trasformazione della teoria, detta stratificazione,
che aumenta il numero di strati in una teoria logica. Le soluzioni studiate hanno portato
all’implementazione di un nuovo sistema di apprendimento automatico, denominato ATRE in grado
di apprendere regole di classificazione esprimibili mediante una teoria logica caratterizzata da
dipendenze fra i predicati multipli appresi e dalla presenza di definizioni ricorsive. I primi risultati
sperimentali ottenuti nell’ambito del progetto hanno mostrato la capacità di ATRE di indurre teorie
logiche con tali caratteristiche. Come lavoro futuro
occorrerà migliorare l’efficienza
computazionale del sistema.
Per quanto attiene al secondo problema, ovvero alla possibilità di applicare efficacemente modelli
di apprendimento automatico all’estrazione automatica di informazione da documenti semistrutturati, entrambi i sistemi sono stati applicati alla elaborazione automatica di documenti in
formato digitale sfruttando l'informazione di layout presente nei documenti cartacei e rilevata
attraverso una opportuna fase di preprocessing. Entrambi i sistemi di apprendimento logico
induttivo INTHELEX e ATRE sono stati efficacemente applicati ai task di classificazione e
document image understanding, e i risultati sono riportati negli articoli scientifici i riferimenti dei
quali sono di seguito riportati. Allo scopo di passare dal dominio dei documenti cartacei acquisiti in
forma digitale a quello dei documenti elettronici già disponibili in formato HTML, XML, etc., e con
l'obiettivo ulteriore di verificare l'applicabilità di questi sistemi al text understanding o almeno alla
categorizzazione di testi, si è messo a punto un linguaggio di descrizione che consente di esprimere
la struttura delle pagine Web, come pure delle frasi di testo in esse contenute. In particolare,
l’individuazione di una struttura in queste ultime è stata ottenuta per mezzo di un parser, quale fase
di preelaborazione necessaria per l’estrazione di informazioni. Sperimentazioni preliminari con il
sistema INTHELEX hanno dimostrato la applicabilità dei modelli computazionali di apprendimento
logico-induttivo alla comprensione semantica di testi. Ulteriori e più approfondite sperimentazioni
sono pianificate per verificare la scalabilità di queste tecniche a problemi reali, caratterizzati da
un’alta complessità.
Sfruttando tecniche di apprendimento più tradizionali, si è sviluppato il sistema di classificazione di
pagine Web, denominato WEBCLASS. Esso integra diverse note tecniche di apprendimento
automatico, operanti su descrizioni del tipo coppie attributo valore, ai fini della classificazione di
pagine Web, sulla base degli interessi dell'utente. Il sistema, realizzato interamente in Java, integra
diverse tecniche di apprendimento automatico, operanti su descrizioni del tipo coppie attributo
valore, ai fini della classificazione di pagine Web, sulla base degli interessi dell'utente. L'interazione
dell'utente o del gruppo di utenti con WEBCLASS avviene in due passi: inizialmente l'utente naviga
nel Web e colleziona riferimenti a pagine significative delle classi di interesse (pagine di
addestramento), in seguito il sistema assiste l'utente nella navigazione classificando autonomamente
le pagine Web, sulla base di quanto ha imparato in fase di addestramento. WEBCLASS utilizza due
modelli di apprendimento alternativi, basati su alberi di decisione e distanza dai prototipi di classe.
Questi prevedono ambedue la costruzione di classificatori (alberi di decisione o prototipi) durante la
fase di addestramento (training del sistema). E' stata organizzata una sperimentazione consistente
nell'addestrare il sistema al riconoscimento di quattro classi di pagine Web: Astronomy, Jazz, Auto
e Moto. Per definire il set di 192 pagine di addestramento da fornire al sistema è stata considerata
l'ontologia di classificazione resa disponibile dal motore di ricerca Yahoo. Particolarmente
incoraggianti, relativamente alla sperimentazione effettuata, sono apparsi i risultati, sicuramente
grazie alla tecnica di selezione preliminare degli attributi più significativi basata sulla combinazione
di tre statistiche: Term Frequency, Page Frequency e Category Frequency.
Obiettivo 2)
Sviluppare metodi per presentare la conoscenza estratta in modo coerente e adattato all'utente,
mediante l'applicazione di tecniche per la generazione di documenti multimediali o in linguaggio
naturale
Descrizione della ricerca eseguita e dei risultati ottenuti:
Nel corso del progetto, il gruppo di Interfacce Intelligenti della unità di Bari si è occupato di
proporre un metodo per la generazione di presentazioni, adattate all’utente e al contesto, dei
risultati di un processo di Knowledge Discovery che utilizzasse metodi di Data Mining
eventualmente differenti.
La presentazione dei risultati va al di la’ della semplice visualizzazione grafica: sfruttando la
conoscenza contenuta nel modello di mining utilizzato, mira a spiegare le relazioni fra i dati, le
tendenze ed i pattern tipici di determinate situazioni. In particolare sono stati perseguiti i seguenti
obiettivi:
(i)
individuazione dei parametri rilevanti per l’adattività e definizione delle strategie di
presentazione adattiva,
(ii)
applicazione di metodi di generazione multimediale che aumentino la “comprensibilità” dei
risultati prodotti dal DM prescindendo dal metodo con cui questi sono stati estratti,
(iii)
utilizzo della semantica implicita del modello del risultato prodotto come guida alla
generazione,
(iv)
integrazione dei risultati di più processi di DM aventi lo stesso obiettivo.
Si è deciso di utilizzare standard che favoriscano la distribuzione ed il riuso delle risorse, sia per
quanto riguarda la conoscenza sul dominio applicativo che per i passi intermedi del processo di
generazione (il piano del discorso). Il risultato è stato rappresentato utilizzando un set di linguaggi
di annotazione (uno per ogni tipo di modello/risultato prodotto) basato su XML proposto come
standard dal DataMining Group (http://www.dmg.org Predictive Model Markup Language PMML
1.0). Per la rappresentazione dei passi intermedi del processo di generazione è stato sviluppato un
linguaggio di annotazione ad hoc.
2. 2 Sviluppi futuri
§ Definizione della migliore strategia di cooperazione di induzione, abduzione ed astrazione in
INTHELEX
§ Mining su dati spaziali per scoperta di conoscenza in sistemi informativi geografici
§ Mining su dati testuali tramite l’uso congiunto di parser e sistemi di apprendimento relazionali
2.3. Pubblicazioni (1999-2000)
Riviste e raccolte
F. Esposito, G. Semeraro, N. Fanizzi & S. Ferilli.
Multistrategy Theory Revision: Induction and Abduction in INTHELEX.
Machine Learning Journal, 38(1/2):133-156, Kluwer Academic
January/February 2000.
Publisher,
Boston,
F. Esposito, D. Malerba, & F.A. Lisi
Machine Learning for Intelligent Processing of Printed Documents
Journal of Intelligent Information Systems, Kluwer Academic Publishers, 14(2/3), 175-198, 2000.
M.F. Costabile, F. Esposito, G. Semeraro & N. Fanizzi.
An Adaptive Visual Environment for Digital Libraries.
International Journal on Digital Libraries, 2: 124-143, Springer-Verlag, Berlin, 1999 .
F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro.
Refining Logic Theories under OI-implication.
S. Ohsuga and Z. W. Ras (Eds.), Foundations of Intelligent Systems, Lecture Notes in Artificial
Intelligence 1932, 109-118, Springer:Berlin, 2000.
F. Esposito, D. Malerba, F.A. Lisi
Induction of recursive theories in the Normal ILP Setting: issues and solutions
J. Cussens and A. Frisch (Eds.), Inductive Logic Programming, ILP2000, Lecture Notes in
Artificial Intelligence 1866, 93-111, Springer Verlag, 2000.
F. Esposito, D. Malerba, L.Di Pace, P. Leo
A Machine Learning approach to Web Mining
E. Lamma and P. Mello (Eds.), AI*IA 99: Advances in Artificial Intelligence, Lecture Notes in
Artificial Intelligence 1792, 190-201, Springer:Berlin, 2000.
F. Esposito, D. Malerba, V. Tamma, H.-H. Bock
Classical resemblance measures.
Chapter 8.1 in H.-H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods
for extracting statistical information from complex data, Series: Studies in Classification,
Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, 139-152, 2000.
F. Esposito, D. Malerba, V. Tamma
Dissimilarity Measures for Symbolic Objects.
Chapter 8.3 in H.-H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods
for extracting statistical information from complex data, Series: Studies in Classification,
Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, 165-185. 2000.
F. Esposito, D. Malerba, F.A. Lisi
Matching Symbolic Objects.
Chapter 8.4 in H.-H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods
for extracting statistical information from complex data, Series: Studies in Classification,
Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, 186-197. 2000.
G. Semeraro, F. Esposito, N. Fanizzi & S. Ferilli.
Interaction Profiling in Digital Libraries through Learning Tools.
J. Borbinha and T. Baker (Eds.), Research and Advanced Technology for Digital Libraries, Lecture
Notes in Computer Science 1923, 229-238, Springer:Berlin, 2000.
F. Esposito, G. Semeraro, N. Fanizzi & S. Ferilli.
Conceptual Change in Learning Naive Physics: The Computational Model as a Theory Revision
Process.
E. Lamma and P. Mello (Eds.), AI*IA 99: Advances in Artificial Intelligence, Lecture Notes in
Artificial Intelligence 1792, 214-225, Springer:Berlin, 2000.
E. Lamma, P. Mello, F. Riguzzi, F. Esposito, S. Ferilli & G. Semeraro.
Cooperation of Abduction and Induction in Logic Programming.
P. Flach and A. Kakas (Eds.), Abductive and Inductive Reasoning: Essays on their Relation and
Integration, Part IV: The Integration of Abduction and Induction - A Logic Programming
Perspective, Chapter 15, Kluwer Academic Publishers, 2000.
F. Esposito, S. Caggese, D. Malerba & G. Semeraro.
Discretization of Continuous-Valued Data in Symbolic Classification Learning.
M. Vichi and O. Opitz (Eds.), Classification and Data Analysis: Theory and Application, SpringerVerlag, 1999.
O. Altamura, F. Esposito, F. A. Lisi, & D. Malerba
Symbolic Learning Techniques in Paper Document Processing.
P. Perner and M. Petrou (Eds.), Machine Learning and Data Mining in Pattern Recognition,
Lecture Notes in Artificial Intelligence, 1715, 159-173, Springer: Berlin, 1999.
E. Bertino, B. Black, A. Brasher, B. Catania, D. Deavin, F. Esposito, J. McNaught, A. Persidis, F.
Rinaldi, G. Semeraro & G.P. Zarri.
CONCERTO, An Environment for the 'Intelligent' Indexing, Querying and Retrieval of Digital
Documents.
Z. W. Ras and A. Skowron (Eds.), Foundations of Intelligent Systems, Lecture Notes in Artificial
Intelligence 1609, 226-234, Springer:Berlin, 1999.
F. Esposito, D. Malerba, & F.A. Lisi.
Machine Learning for Intelligent Document Processing: The WISDOM System.
Z.W. Ras ad A. Skowron (Eds.), Foundations of Intelligent Systems, Lecture Notes in Artificial
Intelligence, 1609, 103-113, Springer:Berlin, 1999.
G. Semeraro, M. F. Costabile, F. Esposito, N. Fanizzi & S. Ferilli.
A Learning Server for Inducing User Classification Rules in a Digital Library Service.
Z. W. Ras and A. Skowron (Eds.), Foundations of Intelligent Systems, Lecture Notes in Artificial
Intelligence 1609, 208-216, Springer:Berlin, 1999.
G. Karakoulas & G. Semeraro.
Report on the ACAI-99 Workshop W04 on "Machine Learning for Intelligent Information
Access".
V. Karkaletsis (Ed.), Lecture Notes in Artificial Intelligence, Springer:Berlin, 2000 (to appear).
Atti di conferenze e workshop internazionali
O. Altamura, F. Esposito, & D. Malerba
WISDOM++: An Interactive and Adaptive Document Analysis System.
Proceedings of the International Conference on Document Analysis and Recognition, 159-173,
IEEE Computer Society Press, 1999.
F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro.
Ideal Theory Refinement under Object Identity.
P. Langley (Ed.), Proceedings of the Seventeenth International Conference on Machine Learning,
263-270, Morgan Kaufmann, San Francisco, California, 2000.
J. McNaught, W.J. Black, F. Rinaldi, E. Bertino, A. Brasher, D. Deavin, B. Catania, D. Silvestri, B.
Armani, P. Leo, A. Persidis, G. Semeraro, F. Esposito, V. Candela, G.P. Zarri & L. Gilardoni.
Integrated Document and Knowledge Management for the Knowledge-based Enterprise.
J. Domingue (Ed.), Proceedings of the Third International Conference on The Practical Application
of Management, 89-108, The Practical Application Company Ltd, Manchester, United
Kingdom, 2000.
E. Bertino, B. Black, A. Brasher, V. Candela, B. Catania, D. Deavin, F. Esposito, J. McNaught, A.
Persidis, F. Rinaldi, G. Semeraro & G.P. Zarri.
CONCERTO, CONCEptual indexing, querying and ReTrieval Of digital documents.
Proceedings of the International Conference on Multimedia Computing and Systems, 1106-1109,
IEEE Computer Society Press, Los Alamitos, California, 1999.
F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro.
Supporting Document Acquisition and Organization in a Digital Library Service through ML
Techniques.
Machine Learning and Applications, Proceedings of the ACAI-99 Workshop on Machine Learning
for Intelligent Information Access, 15-21, Chania, Crete, Greece, July 5-16, 1999.
G. Semeraro, M.F. Costabile, F. Esposito, N. Fanizzi & S. Ferilli.
Machine Learning Techniques for Adaptive User Interfaces in a Corporate Digital Library
Service.
Machine Learning and Applications, Proceedings of the ACAI-99 Workshop on Machine Learning
in User Modeling, 21-29, Chania, Crete, Greece, July 5-16, 1999.
F. Esposito, D. Malerba, L. Di Pace, & P. Leo.
A Learning Intermediary for Automated Classification of Web Pages.
Proceedings of the ICML'99 Workshop on Machine Learning in Text Data Analysis, 37-46, Bled,
Slovenia.
F. Esposito
Inductively learning from numeric and symbolic data: a multistrategy view (invited paper)
P. Brito, J. Costa, D. Malerba (Eds.), Proceedings of the ECML 2000/MLnet Workshop on Dealing
with structured data in Machine Learning and Statistics, 2-17, Barcelona, Spain, May 30,
2000.
V.A.M. Tamma, P.R.S. Visser, D. Malerba & D.M. Jones
Computer Assisted Ontology clustering for Knowledge sharing.
G. Potamias, V. Moustakis, M. van Someren (Eds.), Proceedings of the ECML2000/MLnet
Workshop on Machine Learning in the New Information Age, 75-83, Barcelona, Spain, May 30
- June 2, 2000.
F. Abbattista, F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro.
Suggy: An Automatic Query Refinement.
G. Potamias, V. Moustakis, M. van Someren (Eds.), Proceedings of the ECML2000/MLnet
Workshop on Machine Learning in the New Information Age, 1-7, Barcelona, Spain, May 30 June 2, 2000.
F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro.
Abduction and Abstraction in Inductive Learning.
R.S. Michalski and P.B. Brazdil (Eds.), Proceedings of the Fifth International Workshop on
Multistrategy Learning (MSL 2000), 181-185, Guimaraes, Portugal, June 5-7, 2000.
F. Esposito, D. Malerba & F.A. Lisi
Understanding multipage printed documents: a multiple concepts learning approach
Proceedings of ECAI 2000 Workshop on Machine Learning in Computer Vision, 31-38, Berlin ,
Germany, August 22, 2000.
F. Esposito, S. Ferilli, N. Fanizzi & G. Semeraro.
Learning from Parsed Sentences with INTHELEX.
Proceedings of the Fourth Conference on Computational Natural Language Learning (CoNLL2000) and of the Second Learning Language in Logic Workshop (LLL-2000), 194-198, Omni
Press, Lisbon, Portugal, September 13-14, 2000.
F. Abbattista, F. Esposito, N. Fanizzi, S. Ferilli, F. Lioce & G. Semeraro.
Learning Interaction Models in a Digital Library Service.
Proceedings of the Fourth IAPR International Workshop on Document Analysis Systems (DAS2000), Rio de Janeiro, Brazil, December 10-13, 2000 (to appear).
Atti conferenze nazionali
U. Thiel, A. Stein, G. Semeraro, F. Abbattista, L. De Candia, N. Fanizzi, V. Candela, P. Lops & A.
Valente.
COGITO – E-Commerce with Guiding Agents based on Personalized Interaction Tools.
Atti del Workshop su Apprendimento Automatico e Data Mining: metodologie, strumenti e
applicazioni del Sesto Convegno della Associazione Italiana per l'Intelligenza Artificiale
(AI*IA 2000), Milano, Settembre 12-13, 2000
U. Thiel, A. Stein, G. Semeraro, F. Abbattista, L. De Candia, N. Fanizzi, V. Candela, P. Lops, A.
Valente.
COGITO – E-Commerce with Guiding Agents based on Personalized Interaction Tools.
Proceedings of the AICA Annual Conference, Taormina, Italy, September 27-30, 2000.
M. F. Costabile, F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro.
Secure Transactions in the Management of a Corporate Digital Library.
Proceedings of the AICA Annual Conference, 252-265, Taormina, Italy, September 27-30, 2000.
F. Abbattista, G. Semeraro & F. Zambetta
SAMIR: Scenographic Agents Mimic Intelligent Reasoning.
Atti del Workshop su Agenti intelligenti e Internet: teorie, strumenti e applicazioni del Sesto
Convegno della Associazione Italiana per l'Intelligenza Artificiale (AI*IA 2000), Milano,
Settembre 13, 2000.
M. F. Costabile, F. Esposito & G. Semeraro.
CDL: Il Progetto di Corporate Digital Library.
Giornata Italiana sul tema "Biblioteche Digitali: sistemi e tecnologie", organizzazione a cura di
Stefania Biagioni, Istituto di Elaborazione della Informazione, CNR, Roma, Italy, 24 Marzo
2000.
M. F. Costabile, F. Esposito, D. Malerba, G. Semeraro, N. Fanizzi & S. Ferilli
Tecniche di Intelligenza Artificiale per la Comunicazione Visuale: i Progetti del LACAM.
Giornata Italiana su Human-Computer Interaction, HCITALY99, Roma, Italia, Febbraio 9, 1999.
M. F. Costabile, F. Esposito, G. Semeraro, V. Candela, N. Fanizzi & S. Ferilli.
Corporate Intelligent Digital Libraries.
Atti del Sesto Congresso della Associazione Italiana per l'Intelligenza Artificiale (AI*IA99), a cura
di E. Lamma and P. Mello, 507-510, Pitagora Editrice, Bologna, Italy, September 14-17, 1999.
F. Esposito, G. Semeraro, N. Fanizzi & S. Ferilli.
Cambiamento Concettuale nell'Apprendimento della Fisica Naive: Il Modello Computazionale
come Processo di Revisione di Teorie.
Atti del Sesto Congresso della Associazione Italiana per l'Intelligenza Artificiale (AI*IA99), a cura
di E. Lamma and P. Mello, 133-144, Pitagora Editrice, Bologna, Italy, September 14-17, 1999.
G. Semeraro, M. F. Costabile, V. Candela, N. Fanizzi & S. Ferilli
Creating Corporate Intelligent Digital Libraries.
Atti del Workshop W1 su Intelligenza Artificiale per i Beni Culturali del Sesto Congresso della
Associazione Italiana per l'Intelligenza Artificiale (AI*IA99), a cura di L. Bordoni, 8-17,
Bologna, Settembre 14, 1999.
G. Semeraro, M. F. Costabile, F. Esposito, V. Candela, N. Fanizzi & S. Ferilli.
Corporate Digital Library: A Prototype of Middleware Services.
Proceedings of the AICA Annual Conference, 252-265, Abano Terme, Italy, September 27-October
2, 1999.
G. Semeraro, M.F. Costabile, V. Candela, N. Fanizzi & P. Lops.
Artificial Intelligence Techniques in Corporate Digital Libraries.
AI*IA Notizie, 1999.
Inoltre, i seguenti lavori sono reperibili sul sito Web del gruppo Interfacce Intelligenti del DIB di
Bari:
http://aos2.uniba.it:8080/IntInt.html
B. De Carolis, F. de Rosis, C. Andreoli, V. Cavallo & M.L. De Cicco.
The dynamic generation of hypertext presentations of medical guidelines.
The New Review of Hypermedia and Multimedia, 1999.
B. De Carolis, C. Pelachaud & I. Poggi.
Verbal and nonverbal discourse planning.
Workshop on “Achieving Human-Like Behaviour in Interactive Animated Agents. Agents 2000.
F. de Rosis, B. de Carolis & S. Pizzutilo.
Automated generation of Agents’ behaviour from formal models of interaction.
AVI2000.
G. De Salve, B. De Carolis, F. de Rosis, C. Andreoli, M.L. De Cicco & V. Cavallo.
Image Descriptions from Annotated Knowledge Sources.
Impacts in NLG: NLG Between Technology and Applications, Germany 2000.
B. De Carolis & S. Pizzutilo.
User, Situation and Device-Sensitive Presentation of Information.
ECAI 2000 Workshop on Artificial Intelligence in Mobile Systems.
2.4 Descrizione dei Prototipi
2.4.1Nome del prototipo
1. Learning server
2. Un Generatore di commenti in Linguaggio Naturale a risultati espressi come alberi di decisione.
3. Un Generatore di commenti, in forma ipertestuale, alla descrizione di un risultato di estrazione
di conoscenza da un set di immagini (ad es. immagini radiologiche relative a patologie di
interesse epidemiologico);
4. Un Generatore di Presentazioni sotto forma di Agenti Animati;
5. Un Generatore di Messaggi adattati al tool con cui l’Utente riceve il messaggio (telefonino,
palmare o PC).
2.4.2. Descrizione delle funzionalità del Learning Server.
Il prototipo è una suite di sistemi di apprendimento automatico disponibili per supportare
l’acquisizione di conoscenza da parte di un information agent che intende estrarre informazione da
dati disponibili su data base e/o su web. La varietà e complessità dei dati disponibili sia su basi di
dati e sia su Web ha imposto l’integrazione nel learning server di diversi sistemi di apprendimento
automatico, alcuni in grado di operare su dati numerico/simbolici rappresentati in una tabella
relazionale e altri capaci di operare su rappresentazioni logiche del primo ordine o su dati multirelazionali. I sistemi disponibili attualmente nel learning server sono OC1, ITI, INTHELEX e
ATRE. I primi due sono sistemi proprietari in grado di indurre alberi di decisione. In particolare
OC1 è caratteristico per la capacità di costruire delle partizioni “oblique” dello spazio delle
caratteristiche, combinando linearmente diversi attributi numerici. OC1 è quindi indicato per quelle
applicazioni in cui i dati a disposizione sono prevalentemente numerici. OC1 opera in maniera
batch, cioè è costretto a ricostruire l’intero albero di decisione ogni volta che l’insieme dei dati di
apprendimento viene arricchito di nuovi esempi. Al contrario, il sistema ITI può operare in maniera
incrementale, revisionando l’albero di decisione ogni qualvolta un nuovo esempio si rende
disponibile. Questo sistema è caratterizzato da inefficienze nell’uso della risorsa spazio di memoria
allorquando gli esempi di apprendimento presentano molti attributi numerici distinti.
I sistemi INTHELEX e ATRE sono stati completamente sviluppati dall’unità di Bari e operano su
dati rappresentati mediante formule del primo ordine. In particolare
•
INTHELEX (INcremental THEory Learner from EXamples) è un sistema di apprendimento
induttivo incrementale che integra, a livello prototipale, diverse strategie di ragionamento:
induzione, abduzione ed astrazione. La limitazione dello spazio di ricerca delle generalizzazioni
induttive è ottenuta attraverso l’adozione di un modello di generalizzazione (theta-sussunzione
sotto Object Identity) che consente la definizione di operatori di raffinamento ideali (localmente
finiti, appropriati e completi), senza perdita di potenza espressiva. Nel nostro framework
l’abduzione supporta gli operatori induttivi nel completamento delle nuove osservazioni che si
rendono via via disponibili, mentre l’astrazione consente di ridurre la complessità delle
descrizioni e del relativo trattamento attraverso uno shift del linguaggio di rappresentazione. La
caratteristica di INTHELEX rispetto ad altri sistemi simili è la possibilità di apprendere
incrementalmente, anche partendo da una teoria vuota, e di non aver bisogno di forte interazione
con l’utente o di modelli di conoscenza profonda. Altre caratteristiche di INTHELEX sono la
possibilità di apprendere contemporaneamente più concetti, eventualmente correlati tra loro
secondo relazioni espresse in un grafo delle dipendenze, e l’adozione di una strategia di
memorizzazione totale degli esempi trattati in precedenza ai fini del mantenimento costante di
coerenza e completezza della teoria rispetto ad essi.
•
ATRE (Apprendimento di Teorie Ricorsive da Esempi) è un sistema di apprendimento induttivo
in grado di apprendere teorie logiche ricorsive secondo una modalità operativa batch. Le teorie
logiche sono insiemi di clausole definite che soddisfano vincoli di linkedness e rangerestrictedness. Il sistema ATRE è multi-concettuale nel senso che esso è in grado di apprendere
contemporaneamente diversi concetti, scoprendone autonomamente eventuali dipendenze ed
esprimendole come dipendenze fra le relative clausole. Proprietà originali di ATRE sono una
sua rappresentazione object-centered delle osservazioni di apprendimento, che ne aumenta
l’efficienza computazionale, una strategia di ricerca parallela nell’apprendimento dei vari
concetti, in grado di garantire la scoperta automatica di dipendenze fra concetti, un modello di
generalizzazione, denominato implicazione generalizzata, adatto a garantire completezza e
consistenza di teorie logiche ricorsive, e una strategia di ripristino della consistenza basato sulla
creazione di diversi layer in una teoria logica.
Il learning server è stato utilizzato già in numerose applicazioni. In particolare il sistema
INTHELEX è stato utilizzato per apprendere incrementalmente i modelli di classificazione e
comprensione di documenti utilizzati dalla digital library IDL, mentre i sistemi ITI e ATRE sono
stati utilizzati dal sistema WISDOM++ per apprendere i modelli di classificazione di blocchi, di
classificazione e comprensione di documenti stampati. Il sistema OC1, infine, è stato utilizzato da
WebClass, un agente intermediario per la classificazione di pagine Web.
2.4.3 Piattaforma hardware
PC
2.4.4 Sviluppi futuri
Lo sviluppo del Learning Server dovrebbe proseguire in direzione di una maggiore
standardizzazione dell’Input/Output secondo il formato XML. Il DMG (Data Mining Group), un
consorzio di industrie e accademici, ha già definito uno standard basato su XML per l’interscambio
di modelli predittivi per rappresentazioni attributo-valore. Per la condivisione di dati e modelli
predittivi del primo ordine sarà necessario attendere che tale standard venga definito dal consorzio.
3. Contributo dell'Unità di Ferrara
Ricercatori afferenti all'Unità:
Cesare Stefanelli (responsabile), Anna Ciampolini, Evelina Lamma, Paola Mello, Fabrizio Riguzzi,
Rita Cucchiara, Massimo Piccardi, Michela Milano, Marco Gavanelli, Paolo Torroni, Filippo
Focacci.
3.1. Descrizione del Contributo dell'Unità
Tematica: Estrazione di Conoscenza
Nel corso del secondo anno sono state compiute sperimentazioni di tecniche di estrazione di
conoscenza in due domini particolari: la visione artificiale e la microbiologia.
Nel campo della visione artificiale, il problema considerato consiste nell’individuare la presenza di
difetti in immagini di pezzi industriali metallici. I difetti hanno una forma rettilinea chiara su
sfondo scuro. Sono state perciò scelte alcune primitive visuali che evidenziano la presenza di forme
rettilinee di elevata luminosità. Tali primitive, applicate a una immagine, forniscono un insieme di
attributi numerici che la descrivono e che consentono di utilizzare tecniche di estrazione di
conoscenza per la generazione di un classificatore di tali immagini.
A tal fine sono state confrontate varie tecniche di apprendimento automatico (apprendimento di
alberi di decisione e di regole, reti neurale con backpropagation) e di analisi statistica (nearest
neighbour, discriminanti lineari, logistici e quadratici). Tra le varie tecniche, quella che ha fornito
una migliore accuratezza è stata l’apprendimento di alberi di decisione e regole utilizzando il
sistema c4.5 con la quale è stata ottenuta una accuratezza del 93.3%.
Nel campo della microbiologia, si sono applicate tecniche di clustering al fine di analizzare le
caratteristiche della popolazione di batteri di una certa specie isolati in un ospedale in un certo
periodo di tempo. Su ogni batterio isolato vengono testati una serie di antibiotici. Il risultato di
ciascun test può essere Sensibile, Intermedio o Resistente (S, I o R). Ogni batterio viene quindi
descritto dal vettore dei risultati. Al fine di tenere sotto controllo l’evolversi delle resistenze agli
antibiotici dei batteri di una certa specie, è stato applicato il clustering all’insieme dei vettori dei
risultati in modo da identificare sottogruppi di batteri aventi una simile risposta agli antibiotici.
3.2. Sviluppi futuri
In futuro verrà estesa l’analisi a problemi cosiddetti di “data mining” ovvero a problemi di
apprendimento da grandi moli di dati. In tal caso le tecniche di apprendimento automatico devono
essere modificate al fine di poter essere applicate in maniera efficace. Tipicamente, tali dati sono
memorizzati su memoria di massa in un database relazionale. L’unità di Ferrara ha scelto di
occuparsi in particolare di tecniche di apprendimento del primo ordine in quanto può essere stabilita
una corrispondenza uno a uno tra le relazioni di un database e i predicati di un linguaggio logico.
Al fine di applicare tali tecniche esse dovranno essere opportunamente estese al fine di poter
utilizzare in maniera efficiente i dati residenti su un database relazionale.
3. 3 Pubblicazioni (1999-2000)
E. Lamma, P. Mello, F. Riguzzi, F. Esposito, S. Ferelli, G. Semeraro, "Cooperation of Abduction
and Induction in Logic Programming", in P. Flach, A. Kakas (eds.) Abductive and Inductive
Reasoning: Essays on their Relation and Integration, 2000.
E. Lamma, F. Riguzzi, L. M. Pereira, "Strategies in Combined Learning via Logic Programs",
Machine Learning, Vol. 38, Numero 1 e 2, gennaio/febbraio 2000.
E. Lamma, L. M. Pereira,and F. Riguzzi, “Logic Aided Lamarckian Evolution”, Proceedings of the
Fifth International Workshop on Multistrategy Learning (MSL2000), Guimaraes, Portogallo,
giugno 2000.
R. Cucchiara, P. Mello, M. Piccardi and F. Riguzzi, “An application of machine learning and
statistics to defect detection”, ECAI2000 Workshop on Machine Learning in Computer Vision”,
Floriana Esposito, Donato Malerba (Eds), ECAI Workshop Notes, Berlin, Germany, 22 agosto,
2000
E. Lamma, M. Manservigi, P. Mello, R. Serra, S. Storari, F. Riguzzi, “A System for Monotoring
Nosocomial Infections”, ECAI2000 Workshop on Intelligent Data Analysis in Medicine and
Pharmacology, (IDAMAP-2000), Nada Lavra_, Silvia Miksch, Branko Kav_ek (Eds), ECAI
Workshop Notes, Berlin, Germany, agosto 20-25, 2000
E. Lamma, M. Manservigi, P. Mello, R. Serra, S. Storari, F. Riguzzi, “A System for Monotoring
Nosocomial Infections”, First International Symposium on Medical Data Analysis, R. W. Brause,
Ernst Hanisch (Eds.), Franckfurt, Germany, settembre 2000, LNCS 1933, Springer Verlag.
R. Cucchiara, P. Mello, M. Piccardi and F. Riguzzi, “An application of machine learning and
statistics to defect detection”, Intelligent Data Analysis, Volume 5(1), 2000.
4. Contributo dell' Università di Firenze
Dipartimento di Sistemi e Informatica
Via S. Marta, 3
50139 Firenze
Ricercatori afferenti all'Unità:
Giovanni Soda
Paolo Frasconi
Francesca Cesarini
Simone Marinai
Fabrizio Costa
4.1. Descrizione del Contributo dell'Unità
L’ambiente di studio dell’Unita’ di Firenze riguarda l’apprendimento empirico basato su
modelli grafici con particolare riferimento ad algoritmi ed architetture per domini
strutturati. L’idea di apprendere da domini strutturati e’ relativamente nuova e
recentemente sono stati proposti diversi modelli computazionali. Sono stati studiati vari
modelli in tale ambito con applicazioni alla classificazione ed al riconoscimento di
documenti cartacei, al linguaggio naturale, alla predizione di strutture secondarie delle
proteine.
Reti neurali per la classificazione di documenti
Facendo seguito ad una attivita’ svolta in ambito ESPRIT, cui l’unita’ di Firenze e’
impegnata, è stata messa a punto una tecnica di segmentazione dei documenti basata su
una struttura ad albero X-Y al fine di predisporre il sistema all’individuazione di
informazioni di interesse prese dal documento [1] Questa attivita’ puo’ essere vista come
propedeutica per il problema della classificazione di documenti che e' stato perseguito con
l'applicazione delle reti neurali ricorsive in quanto puo’ servire per il preprocessing dei
documenti da trattare. Durante il secondo anno di attivita', infatti, e' stato messo a punto un
classificatore di documenti basato su una modello grafico derivato dagli HMM (Hidden
Markov Model). La prima particolarita' del modello e' l'avere in input un documento
rappresetato con albero X-Y. Questo, sebbene renda possibile la rappresentazione di
importanti proprieta' strutturali del documento, sarebbe in contrasto con le modalita' di
impiego degli HHM che usualmente accettano in input sequenze. Il modello proposto
percio' estende il modello classico al caso in cui il dato e' strutturato [2].
E’ stato anche proposto un criterio basato su una rappresentazione della conoscenza a due
livelli per la modellazione di particolar documenti riconducibili a moduli come le usuali
fatture commerciali. Questo modello puo' esere impiegato per il trattamento preliminare ad
un processo di estrazione di informazioni da documenti. La metodologia puo’ essere
applicate tutte le volte che i documenti siano suddivisibili in classi. L’intuizione e’ che
documenti appartenenti alla stessa classe condivadono similarita’ nella struttura del layout.
Sfruttando queste similarita’e’ possibile costruire un modello di documento riferita alla
classe per cui e’ possibile usare questo modello per estrarre l’informazione dal documento.
Se il modello di classe non puo’ essere applicato viene usato un secondo livello di
conoscenza[3].
E' stato infine studiato un classificatore modulare, basato su modelli connessionistici, per la
lettura di caratteri all'interno di documenti. Il modello proposto si basa sulla seriale
combinazione di classificatori neurali di cui il primo passo e' effettuato da un MLP, mentre
il secondo da un apposita batteria di autoassociatori neurali addestrati sul singolo carattere
[4].
Reti neurali ricorsive applicate al riconoscimento di linguaggio naturale
E' stato sviluppato un algoritmo che puo’ esserre usato per la costruzione di parser
incrementali. L’ipotesi dell’incrementalita’ e’ mutuata dalla psicolinguistica in cui si cerca
di realzzare il riconoscimento delle frasi allo stesso modo di come opera l’operatore umano
che procede da sinistra verso destra e costruisce il significato della frase in modo
incrementale, senza cioe’ operare con backtracking. L'idea che sottende questa ricerca e'
quella di modellare il riconoscimento come un problema di ricerca in uno spazio di stati,
cosi', la costruzione (incrementale) dell'albero, viene fatto aggiungendo di volta in volta un
sottoalbero all'albero sotto costruzione. L'algoritmo da noi proposto realizza un predittore
capace di associare ad un costruendo albero il sottoalbero corretto collegato alla parola sotto
considerazione. L'approccio proposto si basa sull'impiego di un modello neurale ricorsivo,
opportunamente addestrato con frasi gia' correttamente etichettate prese dal dominio del
Penn Tree Bank, che realizza una euristica capace di guidare il processo di riconoscimento.
L'algoritmo si e’ mostrato particolarmente valido sia rispetto ad una scelta puramente
randomica sia rispetto ad una scelta effettuata con euristiche di tipo psicolinguistico. E’ di
notevole interesse il fatto che i risultati ottenuti fanno solo riferimento agli aspetti sintattici
delle frasi sotto considerazione. Questo studio e' ancora sotto sviluppo, risultati preliminari
sono mostrati in [5] [6]. Questa ricerca e' stata condotta congiuntamente con l'Unita' di
Ricerca di Torino.
Reti neurali ricorrenti per la predizione di strutture secondarie di proteine
Il problema studiato riguarda la predizione della struttura secondaria di una proteina a
partire da una sequenza di aminoacidi data in ingresso. E' noto come la sequenza in ingresso
possa esre considerata come una stringa su un alfabeto di quattro caratteri, l'obiettivo e'
quello di costruire una rappresentazione della sequenza che approssimi il piu' possibile la
descrizione tridimensionale della proteina. Questo problema puo' essere visto come una
speciale forma di inferenza grammaticale. Recentemente il problema e' stato affrontato con
predittori connessionistici. Gli approcci proposti fanno tutti riferimento a finestre di
dimensione fissata che si muovono sulla sequenza di ingresso, per cui il predittore neurale e'
forzato ad operare "localmente" sulla stringa. Lo studio da noi affrontato ha riguardato
l'introduzione di una famiglia di architetture neurali, basati su un'estensione delle reti
neurali ricorrenti, con l'idea di operare sulla stringa in ingresso in una direzione da sinistra
verso destra e da destra verso sinistra. Questa bidirezionalita' consente al predittore neurale
di tener conto, oltre alle informazioni della finestra sotto considerazione, anche di
dipendenze che si trovino o all'inizio della sequenza di ingresso o alla fine e quindi di
operare in modo piu' informato sulla predizione [7], [8].
4.2. Pubblicazioni (1999-2000)
[1]
[2]
Cesarini F., M. Gori, S. Marinai, G. Soda (1999): "Structured Document
Segmentation and Representation by Modified X-Y Tree", ICDAR99 IEEE Press,
pp. 563-566.
Diligenti, M., P, Frasconi, M. Gori (2001) "Image Document Categorization using
Hidden Tree-Markov Models and Structured Representations'', To appear in
[3]
[4]
[5]
[6]
[7]
[8]
Proceedings of the International Conference on Advances on Pattern Recognition,
2001.
Cesarini F.,E. Francesconi, M. Gori, G. Soda (2000): "Using Physical and Logical
Constraints for Invoice Understanding", Pattern Analysis & Applications, vol. 3 pp.
182-195.
E. Francesconi, M. Gori,S. Marinai, G. Soda (2000):" A serial Combination of
connectionist-based classifier for OCR", IJDAR, to appear.
Costa F., P. Frasconi, V. Lombardo, G. Soda (2000): " Learning Incremental
Syntactic Structures with Recursive Neural Networks", KES 2000, IEEE Press,
Brighton, pp. 458-461.
F. Costa, P. Frasconi, V. Lombardo, G. Soda (2000): " Towards incremental parsing
of natural language using recursive neural networks". Applied Intelligence,
submitted
Baldi P., S. Brunak, P. Frasconi, G. Pollastri, G. Soda(1999): "Exploiting the Past
and the Future in Protein Secondary Structure Prediction". Bioinformatics, Vol. 15,
No. 11., pp. 937-946.
S. Brunak, P. Baldi, P. Frasconi, G. Pollastri and G. Soda, (2000) "Bidirectional
Dynamics for Protein Secondary Structure Prediction", In Sequence Learning:
Paradigms, Algorithms, and Applications (R. Sun and C.L. Giles eds.), SpringerVerlag, pp. 99--120.
5. Contributo dell' Università di Pisa
L’Unità di Pisa è organizzata in tre sottounità operanti nel settore degli agenti per estrazione di
informazione e conoscenza. Per ciascuna sottounità vengono riportati gli sviluppi effettuati e le
schede dei prototipi messi a punto.
5.1 Descrizione del Contributo dell'Unità
Sotto-Unità 1
Ricercatori afferenti alla sottounità 1:
Giuseppe Attardi, Maria Simi, Alessandro Tommasi, Cristian Burrini, Antonio Cisternino
L’unità si è occupata di tecniche di Web Mining, orientate principalmente all’analisi di documenti
Web e l’estrazione di conoscenze per lo svolgimento di compiti quali: ricerca di documenti,
classificazione di documenti, Question Answering.
Le tecniche e gli strumenti sviluppati comprendono:
1. tecniche di estrazione di “commentari”, utilizzati nella tecnica di categorizzazione per
contesto di pagine Web
2. tecniche di apprendimento di profili concettuali, utilizzati per la costruzione dei profili delle
categorie che costituiscono un catalogo, nel quale i documenti vengono classificati
3. tecniche di Question Answering, utilizzate per estrarre da una collezione di testi le frasi che
contengono le risposte a specifiche domande di un utente.
Gli strumenti sviluppati o messi a punto nell’ambito del progetto comprendono:
1.
2.
3.
4.
5.
6.
7.
8.
9.
Part of Speech Tagger, per italiano, francese, inglese, tedesco
Sentence Splitter statistico
Named Entity Tagger
Estrattore di frasi nominali
Semantic Tagger
Spider parametrico di pagine Web
estrattore di commentari e classificatore Theseus
algoritmo di apprendimento di profili concettuali e prototipo CLAS
sistema di Question Answering PISAB
Categorizzazione per contesto
La tecnica di categorizzazione per contesto consiste nell’estrarre dalle pagine Web i cosiddetti
"commentari", che rappresentano il contesto circostante un link a un documento. Un commentario è
formato dal testo nell’ancora del link, il testo intorno al link, e il testo dei tag HTML nei quali il link
è annidato. Con questa tecnica è stato realizzato il classificatore Theseus [Attardi 99].
Gli esperimenti fatti hanno portato a concludere che la classificazione con questa tecnica è più
efficace (raggiungendo un valore di F1 microavergae superiore al 80%), rispetto alla tradizionale
tecnica di classificazione per contenuto (F1 microaverage inferiore al 25%).
L’estrattore di contesti di Theseus utilizza tecniche di analisi linguistica (POS tagger, chunker).
Apprendimento di profili concettuali
In [Tommasi 99] viene presentata una tecnica per apprendere profili concettuali di categorie, utili ai
fini della classificazione dei commentari.
Question answering
L’obiettivo delle tecniche di Question Answering è di andare oltre le capacità degli attuali sistemi di
Information Retrieval, che sono efficaci nell’individuare i documenti rilevanti un certo argomento,
per riuscire a fornire direttamente all’utente le risposte ad un quesito.
Per raggiungere questo obiettivo, si sono combinate tecniche di Information Retrieval e di
Information Extraction. Le conoscenze contenute nei documenti da interrogare sono estratte sotto
forma di concetti e di relazioni tra loro. Queste conoscenze vengono archiviate sotto forma di frasi
con opportuni tag, in una base di conoscenze costituta da un sistema di IR, indicizzate sulla base dei
concetti. I concetti sono espressi sotto forma di coppie [entità, categoria semantica]. Le entità
vengono estratte dai testi tramite una serie di elaborazioni che comprendono un Sentence Splitter,
un POS Tagger, un Thesaurus (WordNet). Le entità vengono poi classificate all’interno di
un’opportuna ontologia da un Semantic Tagger.
In fase di interrogazione, si estraggono dalla domanda i concetti e si estraggono dalla base di
conoscenze i documenti più pertinenti. Questi vengono suddivisi in paragrafi e di ognuno viene
stimata la pertinenza con la domanda. La pertinenza tiene conto di aspetti semantici della domanda,
quali il tipo della domanda, il focus ed il tipo della risposta richiesta.
Con il prototipo PISAB, l’unità ha partecipato alle valutazioni dei sistemi di Question Answering
della conferenza TREC-9, ottenendo risultati positivi.
5. 2. Sviluppi futuri
Come sviluppi del sistema di Question Answering si prevede di raffinare la capacità di individuare
relazioni tra concetti presenti nei documenti Web, es. relazioni di sussunzione, causa e temporali.
Aggiungendo al sistema capacità deduttive su queste relazioni, sarà possibile rispondere anche a
interrogazioni non triviali, che richiedono di utilizzo di relazioni e conoscenze estratte da più
documenti.
Le tecniche sviluppate nel progetto possono essere utilizzate nel settore dei personal assistants. La
capacità di apprendere relazioni e concetti è necessaria per migliorare strumenti di assistenza
personale, in modo che si possano adattare al vocabolario ed alle esigenze dell'utente. Un’
applicazione possibile è un assistente personale per la categorizzazione di bookmarks, della posta o
di altre collezioni personali di documenti Web.
5. 3. Pubblicazioni (1999-2000)
G. Attardi, A. Gullì, F. Sebastiani, Theseus: Categorization by context, 8th Word Wide Web
Conference, Toronto, Canada, 1999.
G. Attardi, A. Gullì, F. Sebastiani, Automatic Web Page Categorization by Link and Context
Analysis, European Symposium on Telematics, Hypermedia and Artificial Intelligence,
Varese, 1999.
G. Attardi, G. Zorzetti. Impementing an Interactive Discussion Forum, Workshop on Communitybased Interactive Systems, Siena, 1999.
G. Attardi, M. Simi, F. Tanganelli, A. Tommasi. Learning conceptual descriptions of categories,
Rapporto Tecnico, Dipartimento di Informatica, TR-99-21, November 30, 1999.
L. Galavotti, F. Sebastiani, M. Simi. Experiments on the use of feature selection and negative
evidence in automated text categorization, Proceedings of ECDL-00, 4th European
Conference on Research and Advanced Technology for Digital Libraries, J. Borbinha and T.
Baker (eds), 59–68, Lecture Notes for Computer Science, 1923, Springer Verlag, Heidelberg,
DE, 2000.
L. Galavotti, F. Sebastiani, M. Simi. Feature selection and negative evidence in automated text
categorization, Proceedings of the ACM KDD-00 Workshop on Text Mining, Boston, US,
2000.
G. Attardi, C. Burrini, The PISAB Question Answering System, Trec-9, 2000.
5..4 Descrizione del Prototipo
5.4 .1 Nome del prototipo
Theseus
5.4 .2 Descrizione delle funzionalità
Theseus è uno strumento per la classificazione di pagine Web che utilizza la nostra tecnica originale
di categorizzazione per contesto. La tecnica analizza la struttura ipertestuale delle pagine in formato
HTML e ricava per ciascun link (tag <A>) presente nella pagina una serie di contesti, ciascuno
costitutito dal testo di un elemento HTML che racchiude il link. Questa lista di testi costituisce un
“commentario” per il documento riferito dal link.
Il sistema Theseus è composto di:
• Un analizzatore di struttura HTML, che costruisce un albero dei contesti di una pagina
HTML, a partire da un albero di parsing prodotto da un parser scritto in Perl.
• Uno spider parametrico scritto in Java™ che raccoglie le pagine dal Web e costruisce un
database di URL e commentari..
• Un categorizzatore in Java™, che sfrutta un POS tagger (TreeTagger) per svolgere un’analisi
lessicale delle frasi presenti nei commentari, estraendo i tag lessicali ed effettuare il
morphing dei termini.. Dai commentari si estraggono le frasi nominali, le quali vengono
confrontate con i profili di ciascuna categoria per scegliere quella più affine in cui inserire il
documento.
• Un generatore di pagine HTML, che compongono il catalogo per soggetti costruito,
visualizzabile e navigabile via Web.
Theseus è in grado di operare autonomamente, a partire da:
• Un elenco di categorie gerarchiche, con relativi profili
• Un elenco iniziale di siti da visitare, con specifica delle parti da filtrare.
Theseus è stato utilizzato per costruire cataloghi analizzando diversi siti del Web italiano.
5.4 .3 Piattaforma hardware
Il prototipo è stato realizzato su macchine Unix, in particolare Sun Solaris e Linux.
La maggior parte del codice è scritto in Java, con parti in C (POS tagger) e Perl (parsing HTML).
5.4 .4 Sviluppi futuri
Per la costruzione dei profili delle categorie si prevede di utilizzare CLAS, lo strumento di
apprendimento di concetti.
La tecnica di analisi dei contesti è stata adottata con successo in motori di ricerca commerciali, oltre
che per classificare pagine HTML, per ricercare documenti non testuali, in particolare audio (MP3),
immagini (GIF, JPEG, …) e video (RealAudio, WMI).
5.4 .5 Nome del prototipo
CLAS: Concept Learning Algorithm Schema
5.4 .6 Descrizione delle funzionalità
Il prototipo implementa uno schema di estrazione di concetti da documenti preclassificati secondo
una tassonomia ad albero. L’apprendimento avviene a partire da una serie di esempi, di cui viene
fornita la classificazione corretta e la rappresentazione.
Il programma costruisce un profilo per ogni categoria osservata, cioè una lista delle caratteristiche
distintive di quella categoria rispetto alle altre. Una caratteristica viene considerata distintiva se
accomuna gli esempi di una stessa categoria, mentre separa gli esempi di altre categorie.
I moduli relativi al formato dell’input e alla tecnica di generalizzazione e specializzazione sono
customizzabili, in modo da adattare lo schema a esigenze diverse. Già realizzati sono i moduli per
l'applicazione a documenti testuali di breve lunghezza. Tra questi, ve ne sono che prevedano una
fase di preprocessing mediante un Part of Speech Tagger, al fine di ridurre i termini a lemmi,
eliminare termini superflui (preposizioni, congiunzioni, avverbi …), ed eventualmente individuare
di sintagmi nominali.
La generalizzazione tra testi così elaborati viene realizzata da questi moduli mediante operazioni
sintattiche dipendenti dalla rappresentazione scelta.
L'applicazione dell'algoritmo a documenti testuali preclassificati fa emergere, all'interno dei profili,
le caratteristiche rilevanti al significato della categoria rispetto alle altre. La rappresentazione di tali
caratteristiche dipende dalla scelta del modulo per l'applicazione dell'algoritmo; esperimenti
condotti con l'uso di sintagmi nominali o liste di sintagmi nominali hanno fornito risultati
incoraggianti.
Il prototipo permette la costruzione di profili per tassonomie organizzate ad albero e che prevedano
l'appartenenza di un esempio a più categorie.
L'algoritmo garantisce, quando viene applicato ad un ambiente on-line, che i profili si adattino al
contesto temporale degli esempi osservati, seguendo l’evoluzione naturale del significato delle
categorie.
5.4 .7 Piattaforma hardware
Il prototipo è stato realizzato su macchine Linux i386.
Il linguaggio di programmazione adottato è Java.
5.4 .8 Sviluppi futuri
Il sistema basa la sua efficacia sulla definizione opportuna delle operazioni di generalizzazione e di
specializzazione. È previsto che maggior cura nell'analisi del testo e integrazione di strumenti
linguistici più avanzati, come tesauri, migliorino grandemente le prestazioni.
La attuale tecnica di generalizzazione è inadatta all'applicazione a testi più lunghi di poche righe.
Per ovviare a questo è necessario prendere in considerazione aspetti statistici dei testi esaminati.
Il sistema sarà sviluppato per diventare uno strumento di supporto alla comprensione di testi,
integrabile ad esempio in strumenti di question answering o di assistenza all'utente. Queste
applicazioni richiedono capacità di apprendimento di concetti relativi a domini non prefissati, che
possono essere fornite dal meccanismo di apprendimento adattivo di CLAS.
5.4 .9 Nome del prototipo
PISAB Question Answering System
5.4 .10 Descrizione delle funzionalità
PISAB è un prototipo di sistema di Question Answering basato su una combinazione di tecniche di
Information Retrieval e di Information Extraction. Nel nostro approccio la conoscenza viene
modellata attraverso insiemi di concetti e loro relazioni. In particolare PISAB è costituito da un
motore di ricerca su concetti estratti dai documenti mediante tecniche di IE.
Durante la fase di apprendimento i documenti sono indicizzati in base a concetti estratti da essi. In
fase di interrogazione tale indice viene sfruttato per restringere la ricerca della risposta ai soli
documenti più pertinenti per ciascuna domanda. Da essi vengono isolati i paragrafi (o sentenze) che
formano i documenti e di ognuno stimata la pertinenza con la domanda. Per fare questo vengono
estratte dalla domanda informazioni semantiche, inserite in opportuni semantic slot, quali:
• Tipo della domanda: who/where/which/when, …
• Verbo principale
• Descrizione del concetto da trovare (Focus)
• Classe semantica della risposta (Answer Type)
• Concetti riconosciuti nella domanda (Context)
La pertinenza è misurata con un punteggio assegnato ad ogni paragrafo in base al numero di “hit
concettuali” (semantic hit). Si ha un “semantic hit” quando nel paragrafo è presente l’inflessione di
un concetto della domanda oppure un concetto con classe semantica uguale all’Answer Type o al
Focus. Gli slot hanno pesi differenti e quindi contribuiscono in maniera differente al punteggio del
paragrafo (es. un hit nel focus è più importante di un hit nel contesto). Per rendere il sistema più
robusto si assegnano dei punti ad un paragrafo anche in base alla cosine distance fra query e
paragrafo. Dai paragrafi più ricchi di informazione vengono infine estratte le finestre di testo con
maggior punteggio che rappresentano le candidate answer da presentare all’utente.
Il sistema di analisi del testo, che ha il compito di individuare ed estrarre i concetti, è composto da
due moduli principali: l’Entity Tagger e il Semantic Tagger.
L’Entity Tagger opera principalmente a livello sintattico. Esso individua le entità del discorso
sfruttando sia caratteristiche lessicali dei termini come il part of speech, il maiuscolo,
l’appartenenza a lessici di nomi propri, sia regole sintattiche e di contesto. Il Semantic Tagger
associa ad ogni espressione individuata dall’Entity Tagger una categoria semantica, espressa in
termini di un’opportuna ontologia. Ad esempio, dall’analisi di tre frasi che contengono il termine
“Washington”, si ottiene:
[Washington/LOCATION ] is in [North America/LOCATION].
[George Washington/PERSON] didn’t like [apples/FOOD].
[Washington/ORGANIZATION] threated [Iraq/ORGANIZATION] to start [the war/ACT].
I tre sensi del termine “Washington” vengono distinti e classificati rispettivamente come città,
persona, metonimia per il governo degli USA. Per effettuare la classificazione il semantic tagger si
basa su di un dizionario semantico e sul contesto in cui i termini occorrono. Da queste informazioni
si costruisce un concetto, cioè una coppia [entità / classe] formata dall’entità del discorso e dalla sua
classificazione semantica: es. [Washington / Persona].
Con il prototipo PISAB, l’unità ha partecipato alle valutazioni dei sistemi di Question Answering
della conferenza TREC-9, ottenendo risultati incoraggianti.
5.4 .11 Piattaforma hardware
Il sistema è stato implementato quasi totalmente in Java ad eccezione di alcune librerie C, quindi
presenta un elevato grado di portabilità. Attualmente è stato testato su:
•
•
Linux i386
Sun Solaris
5.4 .12 Sviluppi futuri
Attualmente è in corso un’opera di re-ingegnerizzazione che ha lo scopo di consolidare e rendere
autonomi alcuni degli strumenti sviluppati per questo progetto come l’Entity Tagger, il Semantic
Tagger ed il Sentence Splitter. Successivamente ci concentreremo sull’estrazione, sempre attraverso
tecniche di Information Retrieval ed apprendimento automatico, di relazioni fra le entità presenti nei
documenti. Si prevede pertanto di sviluppare ed integrare nel sistema nuovi moduli, specifici per la
risoluzione dei riferimenti fra entità.
Sotto-unità 2
Ricercatori afferenti alla sotto-unità 2
Vincenzo Ambriola, Vincenzo Gervasi
5.5. Descrizione del Contributo
L'unita' ha operato nel settore delle tecniche di analisi di testi tramite regole di parsing basate sul
dominio.
Sono stati sviluppati algoritmi di parsing basati su regole di riscrittura fuzzy e su sistemi di scoring
adattivi, con particolare riguardo all'uso di tecniche euristiche per ridurre il grado di ambiguita' dei
risultati. Sono stati inoltre studiati metodi per l'estrazione automatica di regole di analisi da corpora
di testi non annotati in domini ristretti.
Gli strumenti ottenuti sono stati utilizzati per l'analisi di documenti di requisiti per sistemi software
e per l'estrazione di informazioni da bollettini finanziari.
5.6 Sviluppi futuri
L'unita' si propone di approfondire il tema della sintesi automatica di regole di analisi e delle classi
semantiche associate (clustering di termini specifici del dominio) tramite l'uso di tecniche di data
mining su basi di dati testuali. E' altresi' in corso una ricerca sull'applicazione delle tecniche di
parsing sviluppate nell'ambito del presente progetto all'analisi della struttura retorica-argomentativa
di testi letterari.
5.7. Elenco pubblicazioni
V. Ambriola and V. Gervasi.
Experiences with domain-based parsing of natural language requirements.
In G. Fliedl and H. C. Mayr, editors, Proc. of the 4th International Conference on Applications of
Natural Language to Information Systems, number 129 in OCG Schriftenreihe (Lecture Notes),
pages 145-148, June 1999.
V. Ambriola and V. Gervasi.
Supporting multiple views on requirements.
In Proc. of the 6th Maghrebian Conference on Computer Sciences, November 2000.
V. Gervasi.
Environment Support for Requirements Writing and Analysis.
PhD thesis, University of Pisa, February 2000.
V. Gervasi and B. Nuseibeh.
Lightweight validation of natural language requirements. In Proc. of the 4th International
Conference on Requirements Engineering, pages 140-148, June 2000.
V. Gervasi and D. Rosaci.
School on information extraction, 2nd edition. AI*IA Notizie, 12(4):65-66, December 1999. (in
Italian).
5.8 Descrizione del Prototipo
5.8.1 Nome del Prototipo:
The CICO domain-based parser
5.8.2 Descrizione del Prototipo
Cico e' un analizzatore per linguaggio naturale basato sull'annotazione semantica di termini e
frammenti di frase. Tale annotazione identifica concetti tipici del dominio applicativo considerato
(per esempio, nomi di ditte o espressioni che identificano prodotti finanziari). Un insiemedi regole
di analisi (che costituiscono un sistema di riscrittura), con condizioni sulle annotazioni, viene
applicato agli enunciati in linguaggio naturale. Agli alberi di analisi cosi' ottenuti e' associato un
valore di probabilita' ottenuto tramite regole fuzzy. Inoltre, ogni applicazione di regole puo'
opzionalmente causare l'esecuzione di azioni, che tipicamente comprendono la registrazione di
frammenti di conoscenza estratti dal testo in formato piu' facilmente analizzabile.
5.8.3 Piattaforma hw
UNIX/Linux; CICO e' comunque scritto in ANSI C standard e dunque facilmente portabile su
piattaforme diverse.
5.8.4 Sviluppi futuri
Nell'ambito del progetto, CICO e' stato collegato a un analizzatore morfologico; si prevede di
aumentare ulteriormente le capacita' di analisi morfosintattica dello strumento, integrando ove
possibile sistemi gia' esistenti, e di migliorare le sue capacita' di disambiguazione attraverso l'uso di
una rete semantica generalista come Wordnet.
Sotto-Unità 3
Ricercatori afferenti alla sottounità Unità:
Franco Turini, Dino Pedreschi, Antonio Brogi, Salvatore Ruggieri, Alessandra Raffaetà, Mirco
Nanni, Andrea Bracciali
Contrattisti:
Piero Alcamo, Francesco Domenichini
5.9 Descrizione del contributo dell’Unità
L’attività di ricerca dell’unità è stata orientata alla definizione di ambienti di modellazione e
sviluppo di processi per il knowledge discovery. In particolare, sono stati seguiti due approcci.
Ad un livello generale, è stato progettato e sviluppato l’ambiente KDDML per il supporto di
processi di knowledge discovery. L’ambiente è stato sviluppato in Java per la sua portabilità ed è
basato su XML come linguaggio uniforme di rappresentazione della conoscenza estratta e come
linguaggio di interrogazione. In KDDML, tipologie differenti di conoscenza estratta possono essere
combinate al fine di descrivere e risolvere problemi complessi di estrazione della conoscenza.
L’ambiente è aperto e versatile: l’adozione di XML permette l’interoperabilità tra sistemi per il
preprocessing, basi di dati, algoritmi di mining, sistemi (quali il linguaggio Prolog) per la
manipolazione della conoscenza al metalivello.
Ad un livello specializzato su particolari applicazioni, è stato progettato e sviluppato MINEFAST,
un ambiente verticale per il datawarehousing di accessi a web/proxy servers e per la definizione di
strategie di web/proxy caching intelligente. Le strategie intelligenti di caching utilizzano modelli
degli accessi passati al fine di predirre pattern frequenti di accessi futuri. Al contrario, le strategie
classiche di caching (es., LRU) hanno la limitazione di essere fisse e di non adattarsi al flusso di
richieste su uno specifico intervallo temporale o tipologia di utenti. L’ambiente è stato sviluppato
utilizzando SQL Server 2000 ed alcuni programmi di simulazione, ed è perfettamente in grado di
modellare l’intero processo di acquisizione dei file di log, preprocessing, datawarehousing,
estrazione dei pattern di accesso e simulazione delle strategie intelligenti. Le strategie intelligenti
sviluppate utilizzano modelli nella forma di regole di associazione (ovvero, accessi a risorse
correlate) e di alberi di decisione (classificazione utilizzata per predirre la vicinanza di richieste
future). I risultati sperimentali mostrano che la strategia basata su alberi esibisce una performance
(in termini di percentuale di risorse trovate in cache) notevolmente superiore alla LRU o ad altre
strategie classiche.
Nel contesto dello sviluppo di MINEFAST è stata utilizzata una versione efficiente dell’algoritmo
C4.5 di costruzione di alberi di decisione. Tale versione, denominata EC4.5, è stata sviluppata
sempre nel contesto delle attività dell’unità.
5.10 Sviluppi Futuri
La versatilità e l’espressività del sistema KDDML verranno testate su casi studio. In particolare,
l’applicazione del caching intelligente è sicuramente un caso studio sufficientemente realistico e
complesso.
Il sistema MINEFAST sarà ampliato in diverse direzioni:
• Generalità e robustezza: il sistema dovrà essere in grado di processare diversi formati di file
di log,
• Integrazione di strategie intelligenti: le due strategie finora sviluppate e testate
separatamente verranno integrate,
• Nuove strategie intelligenti: verranno investigate sia varianti delle strategie studiate che
strategie basate su altre tecniche di data mining (es., clustering),
• Integrazione su sistemi reali: il sistema verrà integrato in SQUID, un proxy server di
pubblico dominio.
5.11 Pubblicazioni (1999-2000)
F. Giannotti, G. Manco, M. Nanni, D. Pedreschi. Non-deterministic, non-monotonic logic
databases. To appear in IEEE Trans. On Knowledge and Data Engineering, 2000.
S. Ruggieri. Efficient C4.5. Technical Report TR-00-01. Dipartimento di Informatica, Università di
Pisa. To appear in IEEE Trans. On Knowledge and Data Engineering, 2000.
P. Alcamo, F. Domenichini, F. Turini. An XML based environment in support of the overall KDD
process. In proceedings of Intl Conf. On Flexible Query Answering (FQAS), Series on Advances
in Soft Computing, Springer-Verlag, 2000.
F. Giannotti, G. Manco. Declarative knowledge extraction with iterative user-defined aggregates.
In proceedings of Intl Conf. On Flexible Query Answering (FQAS), Series on Advances in Soft
Computing, Springer-Verlag, 2000.
F. Bonchi, F. Giannotti, G. Manco, M. Nanni, D. Pedreschi, C. Renso, S. Ruggieri. Web log data
warehousing and mining for intelligent web caching. Submitted to Special Issue on Warehouse
Design for Structured and Semistructured Data of the Elsevier Journal on Data and Knowledge
Engineering, 2000.
F. Bonchi, F. Giannotti, G. Manco, M. Nanni, D. Pedreschi, C. Renso, S. Ruggieri. Adaptive web
caching using decision trees. Submitted to SIAM International Conference on Data Mining, 2000.
5.12. Descrizione dei Prototipi
5.12.1 Nome del prototipo
KDDML
5.12.2 Breve descrizione
L’ambiente supporta la costruzione di un’applicazione di Knowledge Discovery in Databases
consentendo la definizione dell’applicazione come una query che coinvolge chiamate ad algoritmi
di data mining, utilizzo di basi di conoscenza codificate in Prolog, visualizzazione dei risultati. La
modalità di interazione è mediante browser. Il sistema è codificato in Java ed usa vari strumenti
standard per la gestione e visualizzazione dei dati XML.
5.123 Piattaforma hw
PC Windows
5.12.4 Sviluppi futuri
Sostituzione dei DTD con XML schema e conseguente riprogettazione e reimplementazione degli
strumenti per la manipolazione dei dati XML.
5.12.5 Nome del prototipo
MINEFAST
5.12.6 Descrizione delle funzionalità
Minefast è un prototipo per la memorizzazione di file di log e per la simulazione di strategie
intelligenti di proxy/web caching. In particolare il sistema si compone dei seguenti moduli:
•
preprocessing di file di log testo (data cleaning, data transformation, hashing, coding) nel
formato Common Log Format,
•
database SQL Server 2000 per la memorizzazione dei dati di log,
•
procedure di caricamento dei dati preprocessati nei database,
•
programmi di simulazione delle strategie classiche di caching (LRU, LFU, SLRU, FIFO,
LRU-MIN),
•
programmi di simulazione di strategie off-line di caching (ORCL),
•
programmi di induzione patterns di accesso (regole di associazione, alberi di decisione),
•
programmi di simulazione di strategie intelligenti.
L’intero ambiente è incentrato nel contesto di SQL Server 2000, il quale fornisce una infrastruttura
uniforme. I vari programmi sono realizzati in PERL (preprocessing), C (hashing, simulatori) , SQL
e Java Script (preprocessing).
5.12.7 Piattaforma hardware
Il prototipo è stato realizzato e testato (su dati di web servers) su sistemi Windows 2000 utilizzando
Microsoft SQL Server 2000 Beta 2.
5.12.8Sviluppi futuri
Il prototipo implementa due strategie intelligenti, una basata su pattern definiti da regole di
associazione e l’altra su pattern definiti da alberi di induzione. Entrambe le strategie “correggono” i
pesi assegnati dalla LRU. Sviluppi futuri includono:
•
strategie che combinano le regole con gli alberi,
•
definizione di strategie che “correggono” i pesi di altre strategie classiche oltre alla LRU,
•
simulazione su dati di proxy e su dati sintetici,
•
raffinamento delle attività di pre-processing,
•
ottimizzazione del prototipo.
5.12.9 Nome del prototipo
EC4.5
5.12.10 Descrizione delle funzionalità
Il C4.5 è un algoritmo di induzione di alberi di decisione sviluppato da R. Quinlan e largamente
utilizzato nella letteratura sul knowledge discovery sia per l’uso in applicazioni che come base per
confrontare nuovi algoritmi di induzione. Il prototipo EC4.5 è una modifica di C4.5 al fine di
superarne le limitazioni di efficienza, in particolare per quanto riguarda il calcolo del guadagno
informativo di attributi continui.
Sulla base di una valutazione analitica delle prestazioni di C4.5, EC4.5 utilizza una struttura dati di
indicizzazione ed adotta tre diversi algoritmi di calcolo del guadagno informativo:
• l’algoritmo di C4.5, ma con una ricerca binaria invece che lineare,
• l’algoritmo di C4.5, ma con un metodo di ordinamento basato su counting sort invece che
quicksort,
• l’algoritmo di RainForest, un sistema specializzato per operare su dati residenti su disco.
EC4.5 risulta sperimentalmente 3-5 volte più efficiente di C4.5, senza sostanzialmente richiedere
memoria aggiuntiva.
5.12.11 Piattaforma hardware
Il prototipo è stato realizzato e testato su sistemi Unix/Linux utilizzando il linguaggio C.
5.12.12 Sviluppi futuri
Il prototipo consiste in una modifica del codice originale di C4.5, il quale è non-ANSI C. Anche al
fine di estenderne le funzionalità (ad es., utilizzando diverse misure di splitting dei nodi), si prevede
di riscrivere interamente il sistema in C++.
6. Contributo dell' Università di Roma "La Sapienza"
Ricercatori afferenti all'Unità:
Alessandro Cucchiarelli (*), Franco Malvestuto, Marina Moscarini, Paola Velardi
(*) afferente all'Università di Ancona
Contrattisti:
Paolo Fabriani , Enrico Faggioli, Daniele Di Minica, Fabio Pardi, Paolo Zirilli
6.1. Descrizione del Contributo dell'Unità
Area 1: Estrazione di contenuti da testi
La localizzazione e la classificazione di contenuti (e-localization ed e-content) disponibili in rete in
forma testuale è uno dei temi centrali sui quali si confrontano web companies e istituti di ricerca. In
un recente convegno organizzato dal gruppo di interesse sui linguaggi naturali della associazione
AI*IA è emerso come molte web companies che si occupano di produzione e classificazione di
contenuti usino strumenti di reperimento di contenuti in gran parte costruiti manualmente, e basati
in minima parte sul metodi di trattamento automatico del linguaggio.
Nell'ambito dell'estrazione di contenuti, la nostra unità si è occupata dei seguenti temi:
- definizione e sperimentazione di metodologie di apprendimento automatico per l'estrazione di
patterns linguistici rilevanti
- studio di modelli teorici di apprendibilità computazionale e verifica di metodi di classificazione
linguistica basati sui contesti.
In termini generali, possiamo descrivere il problema della classificazione linguistica nel seguente
modo:
Supponiamo di dover assegnare una classe Ci∈C ad un elemento testuale T.
T può essere una singola parola, una stringa complessa (ad esempio un nome proprio o un termine
tecnico), o addirittura un intero documento.
C è un insieme di classi, eventualmente strutturate gerarchicamente. Le classi possono essere di tipo
morfologico (ad esempio nome o verbo), sintattico (ad esempio gruppo nominale, o gruppo
preposizionale) semantico (ad esempio persona, o artefatto) o tematico (ad esempio cinema, o
medicina).
La maggior parte dei sistemi di classificazione automatica si basa sull'apprendimento (probabilistico
o rule-based) di contesti "tipici" che caratterizzano elementi Tk appartenenti ad una classe Ci. Una
classe Ci viene descritta mediante un modello contestuale h(Ci) (un esempio tipico è il modello
"bag of words" 1), mentre l'insieme di apprendimento è costituito da vettori di caratteritiche, o
feature vectors, che rappresentano contesti tipici di elementi Tk di Ci.
1
Nel modello "bag of words" Ci é rappresentata dalle m parole più caratterizzanti (ad esempio customer nel contesto di
un'occorrenza della parola bank (Tk) nel senso di building (Ci)). Modelli più sofisticati associano alle parole etichette
morfologiche, sintattiche o semantiche.
Nell'ambito del problema sopra descritto, abbiamo individuato due linee di ricerca:
1. La prima linea ha l'obiettivo di studiare l'efficacia di un utilizzo combinato di diverse strategie
di apprendimento contestuale. L'utilizzo di tecniche multiple, in cascata o con metodi di
"priority voting" sembra infatti una strategia efficace per aumentare l'affidabilità di metodi che
affidano ad algoritmi (e non ad esperti umani) la creazione di un modello di decisione atto a
classificare elementi testuali Tk. In questo ambito, abbiamo applicato al caso della
classificazione semantica di nomi propri un metodo basato sull'apprendimento di contesti
mediante alberi di decisione, e mediante apprendimento probabilistico. I risultati sono stati
presentati, fra l'altro, alla 23a conferenza SIGIR (2000) e sulla rivista Computational Linguistics
(2001).
2. La seconda linea ha l'obiettivo di chiarire alcuni aspetti teorici che riguardano l'apprendibilità
concettuale e la validazione di modelli contestuali h(Ci ) di classificazione di elementi Tk. I
modelli contestuali proposti in letteratura sono più o meno complessi (dal semplice bag of
words all'uso di etichette morfologiche, sintattiche o semantiche) ma anche il modello
contestuale più semplice - ad esempio le k parole più frequentemente co-occorrenti - deve essere
k
appreso all'interno di uno spazio delle ipotesi di dimensioni molto grandi (V nell'esempio
precedente, dove V è la dimensione del vocabolario). Ha dunque una rilevanza pratica, data la
difficoltà di etichettare manualmente migliaia di esempi per l'apprendimento, poter rispondere
alle seguenti domande:
• Quale è la dimensione m del set di apprendimento che occorre sottoporre al sistema se si
desidera apprendere, con una certa confidenza δ, un modello il cui errore sia < ε?
• Come varia m nel caso che gli esempi siano rumorosi, cioè etichettati automaticamente
sulla base di un qualche algoritmo soggetto ad errori?
• E ancora: per verificare la correttezza di un modello contestuale, quale deve essere la
dimensione del test set, e come deve essere scelto?
Questi temi, noti in letteratura come il problema del PAC learning e dell'hypotheis verification,
sono stati affrontati (per ora in termini teorici e parzialmente sperimentali) nel secondo anno del
progetto, con alcuni interessanti risultati, riportati ad esempio in una comunicazione presentata alla
conferenza ECAI 2000.
Area 2: Progetto e gestione di databases probabilistici
Progettazione:
È stato affrontato il problema della progettazione di una base di dati statistici nei due scenari: il
primo non prevede alcuna conoscenza a priori sulla semantica delle variabili di dominio, ed il
secondo assume come dato un insieme di “ipotesi statistiche” che sono state avanzate da un pool di
esperti del dominio di applicazione. Nel primo caso è stato elaborato un algoritmo che estrae da una
distribuzione di probabilità empirica un insieme di relazioni di “independenza condizionata” e
costruisce da queste una "rete markoviana”. Nel secondo caso, è stato elaborato un algoritmo che
talora riesce a sintetizzare uno schema di basi dati che riassume tutte le ipotesi statistiche date e si
traduce in una rete markoviana.
Gestione:
Assegnato lo schema di una base di dati, si sono forniti algoritmi efficienti sotto il profilo della
complessità computazionale per effettuare interrogazioni ed aggiornamenti.
Gli algoritmi per il design ed il management sono contenuti nei due seguenti lavori che sono in
corso di pubblicazione:
F.M. Malvestuto, Processing queries in probabilistic databases
F.M. Malvestuto, A hypergraph-theoretic analysis of collapsibility and decomposability for
extended log-linear models
Questi algoritmi utilizzano intensivamente il concetto di “ipergrafo” ed alcune sue proprietà
topologiche, che sono state studiate in:
F.M. Malvestuto e M. Moscarini, Decomposition of a hypergraph by partial-edge separators,
Theoretical Computer Science 237: 1-2 (2000), 57-59.
6.2. Sviluppi futuri
Nell'area 1, nell'ultima parte del progetto sono stati realizzate e manualmente etichettate due basi di
dati contestuali, da utilizzare per la verifica sperimentale dei modelli teorici di apprendibilità e
verifica di ipotesi, nell'ambito del problema della classificazione semantica di termini (dunque, il
caso specifico è quello in cui T è una parola, C è un insieme di classi semantiche coarse grained
scelte fra le top-level-categories di WordNet, h(Ci) è un modello contestuale di Ci).
Un primo database consiste in 3000 vettori di caratteristiche f k i cui attributi sono ±3 parole intorno
alla parola wk da classificare, etichettate morfologicamente e sintatticamente. Ad ogni parola wk,
dato il contesto fk, è stata assegnata l'appropriata classe semantica.
Un secondo database ha richiesto la realizzazione di una interfaccia per facilitare l'etichettatura
manuale di circa 20.000 collocazioni sintattiche estratte automaticamente dal sistema
ARIOSTO_ENGL. Di ogni collocazione (ad esempio: G_N_p_N(description,of,character) ) viene
decisa la correttezza sintattica e la classificazione (coarse grained) dei due termini co-occorrenti.
6.3. Pubblicazioni (1999-2000)
Riviste Internazionali
Cucchiarelli A., Velardi P "Semantic Tagging of Unknown Proper Nouns " Int. Journal of Natural
Language Engineering, numero speciale su "Semantic Tagging", 1999
Cucchiarelli A., Velardi P. "Unsupervised named Enity Recognition Using Syntactic and Semantic
Contextual Evidence" Computational Linguistics , March 2001
F.M. Malvestuto e M. Moscarini, Decomposition of a hypergraph by partial-edge separators,
Theoretical Computer Science 237: 1-2 (2000), 57-59.
Atti di Convegni Internazionali
Cucchiarelli, P. Velardi "Adaptability of Linguistic Resources to New Domains:
an experiment with Proper Noun Dictionaries" Proc. of VEXTAL99, Venice, November 1999
Cucchiarelli, P. Velardi "A Statistical Technique for Bootstrapping Available Resources for Proper
Nouns Classification", Proc. of IEEE -ICCS99 , Washington, November 1-3, 1999
Cucchiarelli A., Faggioli E., Velardi P. " Will Very Large Corpora Play For Semantic
Disambiguation The Role That Massive Computing Power Is Playing For Other AI-Hard
Problems?" 2nd. Conf. on Language Resources and Evaluation (LREC), Athens, May 2000
Cucchiarelli A., Karkaletsis V. Paliouras G. Spyropolous C. Velardi P. "Automatic adaptation of
Proper Noun Dictionaries through cooperation of machine learning and probabilistic methods" 23rd
annual SIGIR, Athens, June 2000
Missikov M. , Velardi P. "Mining Texts to Acquire a Tourism Knowledge Base for Semantic
Interoperability", IC-AI'2000: June 26-29, 2000, Monte Carlo Resort, Las Vegas, Nevada, USA
Paola Velardi, Alessandro Cucchiarelli "A Theoretical Analysis of Context-based Learning
Algorithms for Word Sense Disambiguation" 14th European Conference on Artificial
Intelligence, ECAI-2000, Berlin August 2000
Atti di Workshop Internazionali
Velardi P., Cucchiarelli A. " Dependency of context-based Word Sense Disambiguation from
representation and domain complexity" ANLP-2000 Workshop on Syntactic and Semantic
Complexity in Natural Language Processing Systems, Seattle, April 30, 2000
Paola Velardi, Alessandro Cucchiarelli "Computational Learnability
of Word Sense
Disambiguation Cues" ECAI-workshop on Machine learning methods for Information Extraction,
Berlin August 2000
6.4 Descrizione dei Prototipi
6.4.1 Nome del prototipo 1
ARIOSTO_ENGL (+CHAOS)
6.4.2 Descrizione delle funzionalità
Sistema per l'analisi morfologica, morfosintattica e sintattica di corpora di testi in lingua inglese. Il
sistema è stato realizzato in cooperazione con l'università di Tor Vergata, che, fra l'altro, ha reso
possibile l'integrazione di ARIOSTO con il parser CHAOS realizzato presso la loro unità.
ARIOSTO è un processore linguistico orientato all'analisi di corpora di grandi dimensioni. E' dotato
dei seguenti moduli: tokenizzatore, analizzatore morfologico, analizzatore morfosintattico (per
analisi di date, espressioni numeriche, verbi composti, ed altri fenomeni regolari), POS tagger,
analizzatore di nomi propri, chunker, parser sintattico superficiale.
6.4.3 Piattaforma hardware
SUN+ Solaris, facilmente portabile in ambiente Linux.
6.4.4 Sviluppi futuri
Si prevede l'estensione con l'aggiunta di un modulo per l'identificazione di terminologia di dominio.
6.4.5Nome del prototipo 2
AMoCS
6.4.6 Descrizione delle funzionalità
Il sistema riceve in ingresso un database di co-occorrenze sintattiche di termini error prone (come
generate automaticamente dal sistema ARIOSTO), un inventario di classi semantiche ed una
tassonomia (nell'attuale implementazione sono state utilizzate 12 categorie di alto livello di
WordNet e l'intera tassonomia WordNet). Genera un modello contestuale probabilistico per
ciascuna classe semantica. Il modello contestuale è rappresentato da un insieme di co-occorrenze
sintattiche semplici o generalizzate, "tipiche" di parole appartenenti ad una certa classe concettuale,
ed è utilizzato per la disambiguazione semantica.
Ad esempio, una co-occorrenza appresa per la classe person è:
G_N_P_N(4cd7,about,person)
Dove 4cd7 è il synset WordNet: communication --- something that is communicated between people
and groups
Il contesto è stato creato sulla base di 9 esempi, che hanno prodotto la generalizzazione 4cd7. Gli
esempi sono visualizzati in Figura 1, che mostra una schermata prodotta dall'interfaccia Easy_Tag
(descritta nel seguito).
Figura 1. Una generalizzazione prodotta da AmoCS, visualizzata tramite l'interfaccia
EASY_Tag
6.4.7 Piattaforma hardware
Il programma è scritto in C++ ed è stato sviluppato in ambiente Linux/Unix.
6.4.8 Sviluppi futuri
Il sistema è in fase di sperimentazione estesa. Si intende perfezionare il modello probabilistico
utilizzato per associare un fattore di confidenza ai patterns sintattici appresi. Il modello verrà
utilizzato per verificare sperimentalmente il modello di apprendimento in presenza di rumore
studiato nel secondo anno di progetto.
6.4.9 Nome del prototipo 3
EASY-Tag
6.4.10 Descrizione delle funzionalità
Interfaccia per facilitare l'etichettatura manuale di learning e test set per l'apprendimento di modelli
di disambiguazione semantica context-based
L'interfaccia grafica facilita la classificazione manuale di co-occorrenze sintattiche, al fine di
generare test set di dimensioni sufficenti a produrre stime di errore affidabili (le dimensioni del test
set sono stimate utilizzando i metodi formali di hypotheis verification descritti in letteratura)
La figura 2 mostra una schermata di EASY_Tag.
Figura 2. La schermata principale del sistema Easy_Tag per la generazione manuale di test
set
6.4.11 Piattaforma hardware
Il programma è costituito da moduli scritti in C++, usa l'interfaccia grafica Qt ed il software
Wordnet, ed è stato sviluppato in ambiente Linux/Unix.
7. Contributo dell' Università di Roma "Tor Vergata"
Dipartimento di Informatica, Sistemi e Produzione
Ricercatori afferenti all'Unità:
Roberto Basili, Alessandro Moschitti, Maria Teresa Pazienza, Michele Vindigni, Fabio Massimo
Zanzotto
7.1Descrizione del Contributo dell'Unità
Titolo specifico della Unità di ricerca: Acquisizione di conoscenza linguistica per
l’estrazione di informazione da testi.
In relazione alla seconda fase di attività (mirante ad arricchire il sistema di proprie capacità di
generalizzazione per la trattazione di basi documentali di grandi dimensioni) l'unita' di Roma Tor
Vergata ha analizzato la possibilità di modellizzare concetti di similitudine o attinenza tra le
esigenze dell'utente e le rappresentazioni generate automaticamente per i documenti. Le descrizioni
così ottenute potrebbero essere utilizzate per derivare automaticamente, mediante algoritmi induttivi
basati su esempi, strutture privilegiate della ricerca e raggruppamenti tematici.
In particolare l’attività è stata incentrata sullo studio di modelli di classificazione del testo basati su
tecnologie linguistiche. Tale compito applicativo assume un particolare rilievo negli scenari di
knowledge management (KM) dove la conoscenza viene usualmente prodotta e scambiata in forme
testuali. La eterogeneità delle fonti e la loro specializzazione richiede forme specifiche di
trattamento nell'ambito di KM. La classificazione in questo senso e' propedeutica alle fasi del
trattamento intelligente, con lo scopo di indirizzare efficientemente l'agente verso la
specializzazione in un dominio specifico ed attivare forme più profonde di induzione a fronte di una
maggiore plausibilità del dominio applicativo correlato al testo. I risultati ottenuti sono relativi al
ruolo che la conoscenza linguistica può svolgere in tali task. Essi sono stati dimostrati superiori a
numerosi metodi presentati in letteratura in una serie di sperimentazioni su più collezioni di test e
confermano il modello proposto come un promettente strumento di supporto al KM.
Tra le importanti ricadute delle attività di ricerca svolte nell’ambito di questo progetto si vogliono
ricordare le due più recenti (novembre 2000).
1) Il responsabile dell’unità è stato invitato dall’Università di Sheffield (UK) a tenere un
seminario relativo a “Terminology extraction from corpus processing in a framework of IE”
.
2) ha organizzato la giornata di lavoro”Le tecnologie del linguaggio nel mondo web” in
collaborazione con l’IRST-itc ed il gruppo di lavoro su elaborazione del linguaggio naturale
dell’AI*IA (Associazione Italiana per l’Intelligenza Artificiale) cui hanno partecipato circa
100 esponenti del mondo accademico ed industriale.
In tali ambiti, tra l’altro, sono stati presentati anche alcuni risultati della nostra attività sia di ricerca
che di sviluppo di risorse (parzialmente finanziata da questo progetto).
I risultati scientifici di tutta l’attività di ricerca e sviluppo sono stati oggetto di lavori e presentazioni
in ambito internazionale (vedasi elenco riportato in fondo a questo documento).
7.2 Sviluppi futuri
Le attività di ricerca future dell’unità correlabili a questo progetto sono concentrate sui seguenti
aspetti:
• generazione di interfacce per l'utilizzo amichevole del sistema
• estensione del modello di elaborazione per il trattamento semantico dell’ informazione
• assegnazione dei sensi dei nomi utilizzati nel profilo
• estrazioni di eventi dal testo
• estensione del modello di classificazione utilizzato in L-Train ed L-Infer
• estensione dell'insieme di features ad includere l'assegnazione dei sensi
• la combinazione di evidenze diverse (sintassi, semantica dei nomi ed eventi)
7.3. Pubblicazioni (1999-2000)
•
BASILI R., MOSCHITTI A., PAZIENZA M.T. "Modeling Terminological Information in Text
Classification", in Proceedings of the TALN 2000 "Le Traitment Automatique des Langues
Naturelles", École Polytechnique Férale de Lausanne, Lausanne, Suisse, 16-18 octobre 2000.
•
BASILI R., M.T. PAZIENZA, M. VINDIGNI, F. M. ZANZOTTO. "Tuning lexicons to new
operational scenarios" in Proceedings of the Second International Conference on Language
Resources and EvaluationConference, (LREC 2000), Athens, Greece, 31 May - 2 June 2000.
•
R.BASILI, L. MAZZUCCHELLI, M.T. PAZIENZA. An Adaptive and Distributed Framework
for Advanced IR. in Proceeding of 6th RIAO Conference (RIAO 2000), Content-Based
Multimedia Information Access, Collège de France, Paris (Francia), Apr. 12-14, 2000.
•
R.BASILI, A. MOSCHITTI, M.T. PAZIENZA. Language Sensitive Text Classification. in
Proceeding of 6th RIAO Conference (RIAO 2000), Content-Based Multimedia Information
Access, Collège de France, Paris (Francia), Apr. 12-14, 2000.
•
R.BASILI, A. MOSCHITTI, M.T. PAZIENZA. Robust inference method for profile-based text
Classification. in Proceeding of JADT 2000, 5th International Conference on Statistical
Analysis of Textual Data, Lausanne (Svizzera), March 9-11, 2000.
•
R. BASILI, PAZIENZA M.T. and ZANZOTTO F.M., Customizable Modular Lexicalized
Parsing, in Proceedings of the 6th International Workshop on Parsing Technology, Trento
(Italy), Feb. 2000.
•
R.BASILI, A. MOSCHITTI, M.T. PAZIENZA. A text Classifier based on Linguistic
Processing. in Proceeding of IJCAI 99 Workshop, Machine Learning for Information Filtering,
Stockolm
(Svezia),
August
1999,
(see"http://www-ai.informatik.unidortmund.de/EVENTS/IJCAI99-MLIF/papers.html").
7.4 Descrizione del Prototipo
7.4.1 Nome del prototipo
L-Index
7.4.2 Descrizione delle funzionalità
La applicazione del dimostratore e' sostanzialmente legata ai compiti di Intelligent Retrieval,
Indexing e Management di informazione testuale. Ciò include capacita' di raggruppamento
concettuale di documenti al fine della gestione della Conoscenza (Knowledge Management)
Il dimostratore di L-Index sfruttando le capacita' di elaborazione testuale e di estrazione di
conoscenza dai testi, garantisce la classificazione automatica dei documenti e la enfatizzazione (in
una visualizzazione per l'utente finale) di un insieme di informazioni rilevanti (ad es. nomi propri
complessi del testo, frasi rilevanti, …)
L-Index si configura come un'architettura modulare i cui componenti principali sono:
•
•
•
un sottosistema dedicato per il processamento linguistico, quindi il Processore Linguistico (LProc).
un sottosistema dedicato alla classificazione, cioe' L-Class. L-Class e' basato a sua volta su due
sottosistemi
• L-Train dedicato all'apprendimento di un modello quantitativo delle diverse classi, e che
genera la conoscenza di base di un classificatore lineare (i.e. i profili quantitativi delle
singole classi)
• L-Infer, che applica la conoscenza derivata alle nuove istanze di documento in ingresso
un sottosistema dedicato alla valutazione del comportamento di L-Infer su un test set di
documenti già classificati (L-Test)
La elaborazione del testo in L-Proc procede secondo una architettura complessa che segue le
tendenze attuali della ricerca nell'ambito della Information Extraction (Basili and Pazienza, 1997;
Pazienza, 1999). La modularità della architettura ne garantisce il riutilizzo in sistemi applicativi
dedicati a finalità diverse, e ne facilita la manutenzione e l'aggiornamento in fasi di processamento
diverse (ad es. la analisi sintattica che può richiedere informazioni lessicali diverse a seconda di
domini che cambiano dinamicamente, o l'insieme dei sensi delle parole che alimentano la
disambiguazione del senso e che si basano su basi di conoscenza non statiche).
Il modello di classificazione adottato per la progettazione di L-Class e' descritto in (Basili et al.,
1999; Basili et al.,2000) e si configura come un classificatore lineare. Le originali caratteristiche di
L-Class sono relative all'utilizzo delle conoscenze linguistiche sul testo estratte da L-Proc (i.e.
determinazione dei nomi propri e della categoria sintattica delle restanti parole nel testo, cioè nomi
aggettivi e verbi) e di una particolare tecnica di inferenza denominata RDS in (Basili et al.,1999).
Infine il sottosistema L-Test e' una piattaforma di supporto alla sperimentazione di modelli di
classificazione che consente la selezione della percentuale necessaria del test set (con la separazione
tra porzione di Test e di Training), l'apprendimento dalla porzione di Training e la misurazione
della prestazione ottenuta sulla porzione di test. Questa consente la veloce prototipizzazione di
diversi classificatori e la loro messa a punto (ad es., scelta dei parametri ottimali di apprendimento
ed inferenza).
7.4.3 Piattaforma hardware
Sun UltraSparc Station con sistema operativo Solaris.
Classificazione disponibile anche in ambiente Win32 bit.
8. Contributo dell' Università di Torino
Area di Estrazione della Conoscenza da Testi
Ricercatori afferenti all'Unità:
Cristina Bosco, Leonardo Lesmo, Vincenzo Lombardo
Contrattisti:
Daniela Vassallo, Davide Zulian
8.1. Descrizione del Contributo dell'Unità
Questo documento descrive i risultati raggiunti dall'unità nell'ambito della costruzione di un
treebank, che serva come corpus annotato per l’estrazione di informazioni utili per il parsing
robusto.
L'obiettivo della costruzione di un parser robusto per l’analisi di testi in italiano si è scontrato nel
corso del progetto con l’assenza di risorse linguistiche utili dal punto di vista dell’analisi sintattica
in ambito reale. Partendo dalla sottocategorizzazione come una sorgente importante per la
disambiguazione, si è osservato che l’italiano manca attualmente di una risorsa linguistica annotata
sintatticamente, da cui estrarre le informazioni di sottocategorizzazione.
Quindi l’unità si è dedicata alla costruzione di un corpus di frasi annotato sintatticamente
(treebank). Dopo aver definito un formalismo per la rappresentazione delle informazioni sintattiche
(tra cui quelle di sottocategorizzazione), basato sulle dipendenze [1] e aver costruito uno strumento
di supporto (parser interattivo) per l’annotazione semiautomatica delle informazioni (vedi rapporto
precedente – ottobre 1999), l’unità si è concentrata sulla definizione delle categorie sintattiche e
sulle relazioni grammaticali per una grammatica estesa a partire da un corpus limitato a 50 frasi.
Quindi, abbiamo avviato l’applicazione del formalismo a un corpus di 800 frasi, estratto da fonti
varie in lingua italiana: quotidiani soprattutto, quindi romanzi contemporanei e notizie di agenzia
(televideo).
I risultati raggiunti nel trattamento dei fenomeni linguistici per l’italiano e l’assegnazione
automatica di relazioni grammaticali sono descritti nei due allegati, corrispondenti a [2] e [3]
rispettivamente.
E’ stata inoltre sviluppata una linea di ricerca con l’Unità di Firenze per lo sviluppo di un algoritmo
di parsing informato da una rete neurale [4].
8.2. Sviluppi futuri
Una volta raggiunto un corpus di 1000 frasi, verranno effettuate le prime estrazioni di informazioni
di sottocategorizzazione. Il parser interattivo costituirà la base per lo sviluppo del parser robusto,
che utilizzerà le informazioni di sottocategorizzazione e verrà informato dalla rete neurale sulle
decisioni in caso di ambiguità.
8.3. Pubblicazioni (1999-2000)
[1] Vincenzo Lombardo, Leonardo Lesmo, A formal theory of dependency syntax with non lexical
units, accettato per la pubblicazione, Journal de Traitment Automatique des Langues, Klincksiek,
Paris.
[2] Cristina Bosco, Vincenzo Lombardo, Daniela Vassallo, Leonardo Lesmo, Building a
Treebank for Italian: a Data-driven Annotation Schema, Atti della II International
Conference on Language Resources and Evaluation (LREC-2000), Atene, 2000.
[3] Leonardo Lesmo, Vincenzo Lombardo, Automatic Assignment of Grammatical
Relations, Atti della II International Conference on Language Resources and Evaluation
(LREC-2000), Atene, 2000.
[4] Fabrizio Costa, Paolo Frasconi, Vincenzo Lombardo, Giovanni Soda, Towards
incremental parsing of natural language using recursive neural networks, in corso di
revisione, Applied Intelligence.
8.4 Descrizione del Prototipo I
8.4.1 Nome del prototipo 1
TUT-parser: Turin University Treebank parser.
Il manuale dettagliato è allegato al rapporto di fine 1999.
8.4.2 Descrizione delle funzionalità
Parser interattivo per la costruzione di alberi sintattici basati sul formalismo a dipendenze. Contiene
molte strategie di parsing (top-down, bottom-up, incrementale) in caso di ambiguità, applica delle
euristiche che permettono di ordinare in modo preferenziale le richieste all’utente.
8.4.3 Piattaforma hardware
Scritto in C++, con un’interfaccia grafica in daVinci per la visualizzazione degli alberi costruiti.
Gira sotto Unix.
8.4.5 Sviluppi futuri
E’ in corso lo sviluppo di un parser robusto che sfrutta lo scheletro del TUT-parser.
8.4.6 Nome del prototipo2
AGRA: Automatic Grammatical Relation Assigner.
8.4.7 Descrizione delle funzionalità
Software per l’assegnazione automatica di relazioni grammaticali. Prende in input un albero
sintattico a dipendenze non etichettato e restituisce un albero etichettato con le relazioni
grammaticali.
8.4.8 Piattaforma hardware
Scritto in Lisp. Gira su tutte le piattaforme che supportano il linguaggio Lisp.
8.4.9 Sviluppi futuri
Integrazione on-line di AGRA e TUT-parser, per contribuire alla disambiguazione sintattica.
Gruppo di Apprendimento Automatico e data Mining Ricercatori afferenti all'Unità:
Marco Botta, Filippo Neri, Lorenza Saitta
8.5 Descrizione del Contributo dell'Unità
Nella prima fase del progetto è stata definita la tipologia dei problemi da affrontare, identificandoli
con il data mining su basi di dati relazionali. Un'analisi dei requisiti specifici richiesti da questa
problematica ha messo in luce che la scalabilità delle tecniche di apprendimento automatico su dati
strutturati incontra seri ostacoli relativi alla complessità computazionale.
Nella seconda fase del progetto, il problema della complessità è stato studiato in dettaglio, e sono
emerse indicazioni su possibili metodi per alleviarlo. Questi metodi sono inoltre stati sperimentati
su alcune basi di dati relazionali messe a disposizione dal gruppo di Apprendimento Automatico
dell'Università del Piemonte Orientale, relative a dati di log di transazioni su rete, per
l'individuazione di eventuali attacchi illegali, e a dati di possibili frodi nelle telecomunicazioni. Per
la sperimentazione si è usata la versione di Gnet (un sistema di apprendimento relazionale basato su
algoritmi genetici) modificata nella prima fase, in cui si era sostituito il modulo di matching con
uno nuovo, che sfrutta un algoritmo Monte Carlo per la ricerca stocastica. I risultati
dell'applicazione di Gnet ai dati disponibili saranno oggetto del dimostratore previsto. Si è inoltre
effettuata una vasta sperimentazione con problemi artificiali generati in modo mirato
all'individuazione dei limiti dei sistemi di apprendimento relazionale.
L'analisi della complessità relativa alla scalabilità degli algoritmi di apprendimento da dati
strutturati ha rivelato, nella prima fase del progetto, la presenza di una transizione di fase nella
probabilità di esistenza di una soluzione, relativamente al matching tra ipotesi ed esempi, con
associato un picco di complessità. Si è esplorata la possibilità di usare tecniche di astrazione, che
sono state proposte e applicate a una base di dati geografica, in cooperazione con l'Institut
Géographique National di Parigi. I risultati hanno dato luogo a pubblicazioni e a presentazioni a
congressi.
I risultati della ricerca sono stati sfruttati in due applicazioni:
• Data mining su basi di dati relazionali fornite dallo CSELT.
• Applicazioni di tecniche di apprendimento automatico alla scoperta di regole per il
cambiamento automatico di scala in carte geografiche. I dati sono stati forniti dall'Institut
Géographique National di Parigi.
8.6. Sviluppi futuri
Un passo ulteriore per estendere l'applicabilità dell'apprendimento relazionale anche a quelle regioni
dello spazio dei problemi che si sono dimostrate più difficili, si è iniziata una sperimentazione
sull'impiego di tecniche di boosting e di combinazione di classificatori. Questa scelta sarà affiancata
all'ulteriore studio della possibilità di utilizzare l'astrazione.
8.7 Pubblicazioni (1999-2000)
Giordana A., Botta M., e Saitta L. (1999). "An Experimental Study of Phase Transitions in
Matching". In Proc. of the 16th Int. Joint Conf. on Artificial Intelligence (Stokholm, Sweden),
pp. 1198-1203.
Giordana A. and Saitta L. (1999)." On-Line Estimation of Matching Complexity in First Order
Logic". Lecture Notes in Artificial Intelligence, 1237, 76-84.
Botta M., Giordana A., Saitta L., and Sebag M. (1999). "Relational learning: Hard problems and
phase transitions". In Proc. of the 6th Congress of the Italian Association for Artificial
Intelligence (Bologna, Italy), pp. 99-111.
Moustière S., Zucker J-D., and Saitta L. (1999). In Proc. ACM/GIS Conference (Kansas City, MS),
pp. 162-164.
Neri F. (1999). "Computer Aided Tracing of Children's Physics Learning: a Teacher Oriented
View". Proceedings of International Joint Conference on Artificial Intelligence (IJCAI'99),
AAAI Press, pp. 370-377.
Giordana A. and Saitta L. (2000). "Phase transitions in learning relations". Machine Learning,
Botta M. and Piola R. (2000). «Refining Numerical Constants in Structured First Order Logic
Theories». Machine Learning.
Neri F. (2000). "Multi Level Knowledge in Modeling Qualitative Physics Learning". Machine
Learning.
Zucker J-D., and Saitta L. (2000). "Perception-Based Abstraction for Concept Representation". In
Proc. AAAI Workshop on Research Trends in Machine Learning (Houston, TX).
Saitta L. and Zucker J-D. (2000). "Abstraction and Phase Transitions". In Proc. of the Int.
Workshop on Approximation, Reformulation, and Abstraction (Houston, TX).
- Gruppo di Apprendimento Automatico e data Mining 8.8 Descrizione del Prototipo
8.8.1 Nome del prototipo
Proto-Miner
8.8.2 Descrizione delle funzionalità
Insieme di algoritmi per i seguenti task di Data Mining: Classificazione, Regressione, Clustering,
Caratterizzazione simbolica, Regole di associazione, Individuazione di episodi nelle serie temporali.
I metodi di cui fa uso sono: Alberi di decisione e regressione, Regole di classificazione, Reti
Neurali, Algoritmi genetici, Ricerca stocastica.
8.8.3 Piattaforma hardware
Macchine Unix e PC con Windows
8.8.4 Sviluppi futuri
Integrazione degli algoritmi di apprendimento con un'attività di pre-processamento dei dati,
eventualmente direttamente sulla base di dati originale.