I motori di ricerca_abstract

Transcript

I motori di ricerca_abstract
La gestione della conoscenza in azienda e logiche di Information Retrieval
Luca Torri – Amministratore e-land srl
Indice
•
Il linguaggio come espressione: senso, significato, similitudini – 5’
•
La gestione della conoscenza in azienda – 15’
•
I motori di ricerca: la chiave per gestire e sfruttare la conoscenza – 15’
•
Cosa sono e come funzionano i motori di ricerca – 20’
•
Motori di ricerca aziendali – 15’
•
Motori di ricerca web – 10’
•
Integrazione tra ricerca web e analisi delle fonti aziendali – 10’
•
Motori di ricerca aziendali basati su tecnologie semantiche – 10’
•
Il motore di ricerca semantica PUMA – 10’
•
Q&A – 10’
Abstract
L'insieme delle conoscenze e delle informazioni che sono alla base delle attività quotidiane delle aziende, in
particolare di quelle ad alto tasso di utilizzo della conoscenza, sono distribuite in una molteplicità di luoghi:
documenti, presentazioni, e-mail, nei dati aziendali strutturati nelle applicazioni ERP e CRM, nei file system.
Tuttavia, il valore effettivo dei contenuti può essere solo realizzato se altri dipendenti possono accedere a
tali informazioni, anche se questi ignorano l'esistenza di determinati documenti. Un vero motore di ricerca
aziendale deve permettere di eseguire le ricerche in tutti i contenuti, in modo sicuro e utilizzando un'unica
casella di ricerca.
Questa mole di conoscenza si affianca all’ulteriore e sterminato archivio di informazioni, il WEB.
Tradizionalmente, siamo abituati a conoscere e utilizzare esclusivamente i motori di ricerca che si
muovono nel web, mentre l’organizzazione della conoscenza aziendale è spesso trascurata, o gestita solo
in parte e superficialmente. Spesso, nel recente passato, sono stati proposti quali “motori di ricerca
aziendali” dei software che non erano tali, i quali semplicemente si appoggiavano al motore di
indicizzazione di Windows. Onde evitare equivoci, individuiamo qual è il set minimo di un motore di ricerca
aziendale:
•
Velocità di risposta
•
Affidabilità nei risultati
•
Opzioni adeguate sul motore di indicizzazione
•
Un buon livello di documenti indicizzabili (pdf, word, excel, ecc.)
•
Una buona diagnostica in caso di problemi
•
Un alto livello di indicizzazione
I “motori di ricerca web”, invece, scandagliano continuamente l'intero web e includono nel proprio archivio
di indirizzi tutti i siti web che riescono ad individuare, a prescindere dalla qualità dei loro contenuti e
indipendentemente dal fatto che i siti siano stati trovati per caso o siano stati proposti al motore di
ricerca da un utente; conseguentemente, negli archivi dei motori di ricerca confluiscono anche siti di
bassa qualità o con pochi contenuti.
Per ovviare a tale inconveniente, i migliori motori di ricerca hanno adottato delle tecniche per mezzo delle
quali ad ogni sito archiviato viene attribuito un valore che rappresenta una sorta di "indice di qualità" del
sito web.
Ogni motore di ricerca utilizza alcuni programmi chiamati "spiders" (ragni) il cui unico compito è quello di
visitare continuamente una grande quantità di siti web, leggere il testo contenuto nelle pagine ed estrarre
quelle parole/termini che rappresentano al meglio i contenuti del sito.
Per ogni pagina letta, lo spider cerca al suo interno e memorizza ogni link (collegamento) ad altri siti,
aggiungendoli ad una lista di siti da visitare.
Una reale valorizzazione del patrimonio di conoscenza dell’azienda, nonché un’efficace integrazione delle
funzionalità che per permetta l’indicizzazione sia dei contenuti Intranet che dei contenuti Internet, è
possibile soltanto attraverso l’utilizzo di un “motore di ricerca semantico”: gli algoritmi semantici, infatti,
consentono di comprendere il "significato" dei contenuti, con un’analisi testuale che va oltre il semplice
dato quantitativo e risolve le ambiguità delle espressioni linguistiche per individuare i concetti chiave e le
correlazioni tra di essi.
e-land ha realizzato PUMA, un motore di ricerca semantico, finalizzato all'analisi, alla classificazione, alla
condivisione, alla diffusione ed alla pubblicazione del patrimonio conoscitivo, o di parti specifiche dello
stesso, di una organizzazione. PUMA è una piattaforma aperta e personalizzabile in base ai diversi
contesti d'uso aziendali: è in grado di estrarre e integrare efficacemente informazioni provenienti da fonti
distribuite ed eterogenee (Web, database, e-mail, documenti ecc.), strutturate e non strutturate, di
diverso formato e lingua.
L’analisi e la classificazione dei documenti si basa su una metodologia che coniuga strumenti di analisi e
classificazione statistici e semantici, attraverso l’uso di dizionari specifici e la costruzione di ontologie
relative al dominio di riferimento.