MOLE - Cineca
Transcript
MOLE - Cineca
MOLE Mining on line expert 1. CHE COS’E’ IL TEXT MINING 3. AMBITI APPLICATIVI Per Text Mining s’intende il processo di estrazione di informazioni significative da documenti testuali attraverso il trattamento del linguaggio naturale e l’utilizzo di tecniche di Data Mining. Nella moderna società dell’informazione il numero di documenti potenzialmente d’interesse da analizzare cresce enormemente (pagine Web, agenzie di stampa, brevetti, e-mail, reclami,…) rendendo necessari strumenti automatici di ausilio alla loro catalogazione ed analisi. Il Text Mining soddisfa l’esigenza di estrarre, in maniera automatica, informazioni utili da documenti provenienti da fonti eterogenee individuando relazioni non visibili all’utente e organizzando i documenti per argomento. La diversità e la difficoltà rispetto alle tecniche di analisi tradizionali consiste proprio nell’analizzare documenti non strutturati scritti in linguaggio naturale. Con il Text Mining si può trasformare una grande quantità di documenti in informazione e conoscenza. Attraverso il Text Mining si possono analizzare volumi immensi di informazioni e si possono identificare relazioni e strutture che altrimenti sfuggirebbero alla capacità analitica umana. Per le imprese Un processo di Text Mining si struttura in tre fasi: indicizzazione, mining, valutazione. • Indicizzazione: analisi linguistica per ottenere una rappresentazione vettoriale del documento. • Mining: applicazione degli algoritmi specifici perl’obiettivo prescelto. • Valutazione: calcolo di misure di efficacia e/o interpretazione dei risultati ottenuti. 2. GLI OBIETTIVI • Classificare documenti automaticamente (categorizzazione o classificazione automatica). • Raggruppare documenti con contenuti simili (clustering) visualizzando relazioni tra i diversi gruppi. • Scoprire associazioni nascoste (legami tra argomenti, o tra autori, trend temporali, ...) • Identificare entità (es: nomi di geni, nomi di aziende,...) contenute nei documenti (information extraction). • Estrarre concetti per la creazione di ontologie (ontology learning) • Technology Watch – analisi dei brevetti al fine di monitorare la concorrenza e conoscere l’evoluzione delle tecnologie. • Organizzazione dell’informazione aziendale mediante classificazione secondo schemi predefiniti. • Monitoraggio delle opinioni della clientela sui propri prodotti tramite l’analisi di newsgroup e forum. Per la pubblica amministrazione • Monitoraggio delle opinioni del cittadino riguardo ai servizi tramite l’analisi dell’e-mail indirizzate agli uffici di relazione con il pubblico (URP) • Analisi della documentazione degli uffici (sentenze, delibere, circolari,..) Per la ricerca scientifica • Analisi della letteratura biomedica • Individuazione di nuovi temi e tecnologie emergenti 4. MOLE MOLE (Mining On Line Expert) è il sistema di Text Mining sviluppato da CINECA. MOLE si pone come obiettivo primario la riduzione della quantità di testi che devono essere letti e analizzati dagli utenti finali per ottenere le informazioni desiderate. Il sistema non consente solamente di recuperare tutti i documenti che contengono la parola ricercata, ma di organizzarli in gruppi omogenei in base al loro contenuto. MOLE fornisce gli strumenti di analisi e reportistica (tabelle, grafici, mappe) in grado di migliorare la comprensione dei risultati della ricerca individuando la presenza di pattern o ricorrenze che altrimenti sfuggirebbero alla lettura dei testi e ai motori di ricerca tradizionali. La ricerca dei documenti è effettuata mediante chiavi di ricerca, sia nel full text che nella metainformazione strutturata, combinate in logica booleana. Il risultato della ricerca è mostrato in ordine di rilevanza rispetto alla interrogazione. Successivamente la cluster analysis divide i CINECA – Gestione e Analisi dell'Informazione documenti in un numero prestabilito di gruppi. L’individuazione di gruppi, consente di organizzare l’informazione disponibile e di individuare nuovi argomenti, che anche ad una lettura attenta potrebbero sfuggire. I gruppi sono presentati all’utente in ordine di omogeneità. All’interno di ciascun gruppo i documenti (che anche in questa fase rimangono consultabili) sono ordinati in base alla omogeneità con il gruppo. MOLE fornisce anche una sintesi visuale dell’analisi. Una mappa mostra i diversi cluster con rettangoli di diversi colori in base alla omogeneità interna. La mappa consente di individuare visivamente i legami tra i diversi gruppi attraverso linee di diverso spessore e colore che ne misurano il grado di correlazione. al contrario di mostrare l’inizio del declino di altre tecnologie. Utilizzando MOLE si può monitorare in modo costante l’attività di diversi attori della scena tecnologica, identificando gli eventuali legami e determinando l’andamento nel tempo del loro impegno nello sviluppo di specifiche tecnologie. Monitoraggio del sistema giudiziario GiuriMole nasce, all’interno di ASTREA (progetto di ricerca FIRB) come prototipo di sistema di monitoraggio dell’attività di un tribunale a partire dalle sentenze emesse. GiuriMole consente di fare sia il raggruppamento tematico delle sentenze che analisi di giurimetrica (utilizzando la meta-informazione estratta dai testi), su sottoinsiemi di sentenze specifici. La metainformazione, quindi, gioca un ruolo fondamentale nell’intero sistema GiuriMole: ad esempio rispetto al problema dei tempi della giustizia, è possibile calcolare la durata media delle varie tipologie di procedimento, come Lavoro e Famiglia. Portale della ricerca I vantaggi dell’utilizzo di MOLE si possono riassumere: • • • • • Organizzare l’informazione. Accedere più velocemente all'argomento di interesse e individuare i legami con altri argomenti riducendo la quantità di documenti che devono essere letti. Scoprire nuovi argomenti. Estrarre informazioni “implicitamente” contenute nei documenti. Analizzare la metainformazione associata ai documenti per individuare legami e tendenze. 5. APPLICAZIONI MOLE Technology Watch MOLE viene utilizzato da diversi utenti per l’attività di Technology Watch: • Monitoraggio tecnologico sulle innovazioni e i servizi di Ricerca e Sviluppo. • Monitoraggio sulle pubblicazioni scientifiche. • Analisi dei brevetti. MOLE consente di individuare l’emergere di nuovi trend nell’ambito delle tecnologie già affermate o All’interno del portale della ricerca italiana MOLE viene utilizzato come supporto alla redazione per l’individuazione di temi di ricerca. Un tema di ricerca è un argomento, anche multidisciplinare, su cui si concentra l’attività di ricerca. Per individuare i temi maggiormente rilevanti una semplice lettura dei titoli per disciplina non consente, di far emergere i reali temi sottostanti e, soprattutto, di individuare i legami interdisciplinari. MOLE consente di individuare i principali gruppi tematici. L’informazione disponibile viene automaticamente organizzata in temi ed è così possibile individuare gli argomenti più rilevanti in termini numerici. Le relazioni, inoltre, mettono in evidenza legami tra argomenti apparentemente separati (di discipline diverse) ma che hanno una terminologia comune. MOLE consente inoltre di analizzare la metainformazione associata ai progetti di ricerca, ad esempio il tipo di progetto (PRIN, FIRB, …), l’Ateneo e l’anno (oltre all’area e ai settori disciplinari). È così possibile analizzare la “specializzazione” degli Atenei, l’aumentare o il diminuire di importanza dei temi individuati nel tempo. Per maggiori informazioni: [email protected] CINECA – Gestione e Analisi dell'Informazione