MOLE - Cineca

Transcript

MOLE - Cineca
MOLE
Mining on line expert
1. CHE COS’E’ IL TEXT MINING
3. AMBITI APPLICATIVI
Per Text Mining s’intende il processo di estrazione
di informazioni significative da documenti
testuali attraverso il trattamento del linguaggio
naturale e l’utilizzo di tecniche di Data Mining.
Nella moderna società dell’informazione il numero
di documenti potenzialmente d’interesse da
analizzare cresce enormemente (pagine Web,
agenzie di stampa, brevetti, e-mail, reclami,…)
rendendo necessari strumenti automatici di ausilio
alla loro catalogazione ed analisi.
Il Text Mining soddisfa l’esigenza di estrarre, in
maniera automatica, informazioni utili da
documenti provenienti da fonti eterogenee
individuando relazioni non visibili all’utente e
organizzando i documenti per argomento.
La diversità e la difficoltà rispetto alle tecniche di
analisi tradizionali consiste proprio nell’analizzare
documenti non strutturati scritti in linguaggio
naturale. Con il Text Mining si può trasformare
una grande quantità di documenti in
informazione e conoscenza.
Attraverso il Text Mining si possono analizzare
volumi immensi di informazioni e si possono
identificare relazioni e strutture che altrimenti
sfuggirebbero alla capacità analitica umana.
Per le imprese
Un processo di Text Mining si struttura in tre fasi:
indicizzazione, mining, valutazione.
• Indicizzazione: analisi linguistica per ottenere
una rappresentazione vettoriale del documento.
• Mining: applicazione degli algoritmi specifici
perl’obiettivo prescelto.
• Valutazione: calcolo di misure di efficacia e/o
interpretazione dei risultati ottenuti.
2. GLI OBIETTIVI
• Classificare
documenti
automaticamente
(categorizzazione o classificazione automatica).
• Raggruppare documenti con contenuti simili
(clustering) visualizzando relazioni tra i diversi
gruppi.
• Scoprire associazioni nascoste (legami tra
argomenti, o tra autori, trend temporali, ...)
• Identificare entità (es: nomi di geni, nomi di
aziende,...)
contenute
nei
documenti
(information extraction).
• Estrarre concetti per la creazione di ontologie
(ontology learning)
• Technology Watch – analisi dei brevetti al fine
di monitorare la concorrenza e conoscere
l’evoluzione delle tecnologie.
• Organizzazione dell’informazione aziendale
mediante
classificazione
secondo
schemi
predefiniti.
• Monitoraggio delle opinioni della clientela sui
propri prodotti tramite l’analisi di newsgroup e
forum.
Per la pubblica amministrazione
• Monitoraggio delle opinioni del cittadino
riguardo ai servizi tramite l’analisi dell’e-mail
indirizzate agli uffici di relazione con il pubblico
(URP)
• Analisi della documentazione degli uffici
(sentenze, delibere, circolari,..)
Per la ricerca scientifica
• Analisi della letteratura biomedica
• Individuazione di nuovi temi e tecnologie
emergenti
4. MOLE
MOLE (Mining On Line Expert) è il sistema di
Text Mining sviluppato da CINECA.
MOLE si pone come obiettivo primario la
riduzione della quantità di testi che devono
essere letti e analizzati dagli utenti finali per
ottenere le informazioni desiderate. Il sistema
non consente solamente di recuperare tutti i
documenti che contengono la parola ricercata, ma
di organizzarli in gruppi omogenei in base al loro
contenuto.
MOLE fornisce gli strumenti di analisi e
reportistica (tabelle, grafici, mappe) in grado di
migliorare la comprensione dei risultati della
ricerca individuando la presenza di pattern o
ricorrenze che altrimenti sfuggirebbero alla lettura
dei testi e ai motori di ricerca tradizionali.
La ricerca dei documenti è effettuata mediante
chiavi di ricerca, sia nel full text che nella
metainformazione strutturata, combinate in logica
booleana.
Il risultato della ricerca è mostrato in ordine di
rilevanza
rispetto
alla
interrogazione.
Successivamente la cluster analysis divide i
CINECA – Gestione e Analisi dell'Informazione
documenti in un numero prestabilito di gruppi.
L’individuazione
di
gruppi,
consente
di
organizzare l’informazione disponibile e di
individuare nuovi argomenti, che anche ad una
lettura attenta potrebbero sfuggire.
I gruppi sono presentati all’utente in ordine di
omogeneità. All’interno di ciascun gruppo i
documenti (che anche in questa fase rimangono
consultabili) sono ordinati in base alla omogeneità
con il gruppo.
MOLE fornisce anche una sintesi visuale
dell’analisi. Una mappa mostra i diversi cluster
con rettangoli di diversi colori in base alla
omogeneità interna.
La mappa consente di individuare visivamente i
legami tra i diversi gruppi attraverso linee di
diverso spessore e colore che ne misurano il
grado di correlazione.
al contrario di mostrare l’inizio del declino di altre
tecnologie.
Utilizzando MOLE si può monitorare in modo
costante l’attività di diversi attori della scena
tecnologica, identificando gli eventuali legami e
determinando l’andamento nel tempo del loro
impegno nello sviluppo di specifiche tecnologie.
Monitoraggio del sistema giudiziario
GiuriMole nasce, all’interno di ASTREA (progetto
di ricerca FIRB) come prototipo di sistema di
monitoraggio dell’attività di un tribunale a partire
dalle sentenze emesse.
GiuriMole consente di fare sia il raggruppamento
tematico delle sentenze che analisi di giurimetrica
(utilizzando la meta-informazione estratta dai
testi), su sottoinsiemi di sentenze specifici. La
metainformazione, quindi, gioca un ruolo
fondamentale nell’intero sistema GiuriMole: ad
esempio rispetto al problema dei tempi della
giustizia, è possibile calcolare la durata media
delle varie tipologie di procedimento, come Lavoro
e Famiglia.
Portale della ricerca
I vantaggi dell’utilizzo di MOLE si possono
riassumere:
•
•
•
•
•
Organizzare l’informazione.
Accedere più velocemente all'argomento di
interesse e individuare i legami con altri
argomenti riducendo la quantità di documenti
che devono essere letti.
Scoprire nuovi argomenti.
Estrarre
informazioni
“implicitamente”
contenute nei documenti.
Analizzare la metainformazione associata ai
documenti per individuare legami e tendenze.
5. APPLICAZIONI MOLE
Technology Watch
MOLE viene utilizzato da diversi utenti per
l’attività di Technology Watch:
• Monitoraggio tecnologico sulle innovazioni e i
servizi di Ricerca e Sviluppo.
• Monitoraggio sulle pubblicazioni scientifiche.
• Analisi dei brevetti.
MOLE consente di individuare l’emergere di nuovi
trend nell’ambito delle tecnologie già affermate o
All’interno del portale della ricerca italiana MOLE
viene utilizzato come supporto alla redazione per
l’individuazione di temi di ricerca. Un tema di
ricerca è un argomento, anche multidisciplinare,
su cui si concentra l’attività di ricerca. Per
individuare i temi maggiormente rilevanti una
semplice lettura dei titoli per disciplina non
consente, di far emergere i reali temi sottostanti e,
soprattutto, di individuare i legami interdisciplinari.
MOLE consente di individuare i principali gruppi
tematici.
L’informazione
disponibile
viene
automaticamente organizzata in temi ed è così
possibile individuare gli argomenti più rilevanti in
termini numerici. Le relazioni, inoltre, mettono in
evidenza legami tra argomenti apparentemente
separati (di discipline diverse) ma che hanno una
terminologia comune.
MOLE consente inoltre di analizzare la metainformazione associata ai progetti di ricerca, ad
esempio il tipo di progetto (PRIN, FIRB, …),
l’Ateneo e l’anno (oltre all’area e ai settori
disciplinari). È così possibile analizzare la
“specializzazione” degli Atenei, l’aumentare o il
diminuire di importanza dei temi individuati nel
tempo.
Per maggiori informazioni:
[email protected]
CINECA – Gestione e Analisi dell'Informazione