I motori di ricerca_abstract
Transcript
I motori di ricerca_abstract
La gestione della conoscenza in azienda e logiche di Information Retrieval Luca Torri – Amministratore e-land srl Indice • Il linguaggio come espressione: senso, significato, similitudini – 5’ • La gestione della conoscenza in azienda – 15’ • I motori di ricerca: la chiave per gestire e sfruttare la conoscenza – 15’ • Cosa sono e come funzionano i motori di ricerca – 20’ • Motori di ricerca aziendali – 15’ • Motori di ricerca web – 10’ • Integrazione tra ricerca web e analisi delle fonti aziendali – 10’ • Motori di ricerca aziendali basati su tecnologie semantiche – 10’ • Il motore di ricerca semantica PUMA – 10’ • Q&A – 10’ Abstract L'insieme delle conoscenze e delle informazioni che sono alla base delle attività quotidiane delle aziende, in particolare di quelle ad alto tasso di utilizzo della conoscenza, sono distribuite in una molteplicità di luoghi: documenti, presentazioni, e-mail, nei dati aziendali strutturati nelle applicazioni ERP e CRM, nei file system. Tuttavia, il valore effettivo dei contenuti può essere solo realizzato se altri dipendenti possono accedere a tali informazioni, anche se questi ignorano l'esistenza di determinati documenti. Un vero motore di ricerca aziendale deve permettere di eseguire le ricerche in tutti i contenuti, in modo sicuro e utilizzando un'unica casella di ricerca. Questa mole di conoscenza si affianca all’ulteriore e sterminato archivio di informazioni, il WEB. Tradizionalmente, siamo abituati a conoscere e utilizzare esclusivamente i motori di ricerca che si muovono nel web, mentre l’organizzazione della conoscenza aziendale è spesso trascurata, o gestita solo in parte e superficialmente. Spesso, nel recente passato, sono stati proposti quali “motori di ricerca aziendali” dei software che non erano tali, i quali semplicemente si appoggiavano al motore di indicizzazione di Windows. Onde evitare equivoci, individuiamo qual è il set minimo di un motore di ricerca aziendale: • Velocità di risposta • Affidabilità nei risultati • Opzioni adeguate sul motore di indicizzazione • Un buon livello di documenti indicizzabili (pdf, word, excel, ecc.) • Una buona diagnostica in caso di problemi • Un alto livello di indicizzazione I “motori di ricerca web”, invece, scandagliano continuamente l'intero web e includono nel proprio archivio di indirizzi tutti i siti web che riescono ad individuare, a prescindere dalla qualità dei loro contenuti e indipendentemente dal fatto che i siti siano stati trovati per caso o siano stati proposti al motore di ricerca da un utente; conseguentemente, negli archivi dei motori di ricerca confluiscono anche siti di bassa qualità o con pochi contenuti. Per ovviare a tale inconveniente, i migliori motori di ricerca hanno adottato delle tecniche per mezzo delle quali ad ogni sito archiviato viene attribuito un valore che rappresenta una sorta di "indice di qualità" del sito web. Ogni motore di ricerca utilizza alcuni programmi chiamati "spiders" (ragni) il cui unico compito è quello di visitare continuamente una grande quantità di siti web, leggere il testo contenuto nelle pagine ed estrarre quelle parole/termini che rappresentano al meglio i contenuti del sito. Per ogni pagina letta, lo spider cerca al suo interno e memorizza ogni link (collegamento) ad altri siti, aggiungendoli ad una lista di siti da visitare. Una reale valorizzazione del patrimonio di conoscenza dell’azienda, nonché un’efficace integrazione delle funzionalità che per permetta l’indicizzazione sia dei contenuti Intranet che dei contenuti Internet, è possibile soltanto attraverso l’utilizzo di un “motore di ricerca semantico”: gli algoritmi semantici, infatti, consentono di comprendere il "significato" dei contenuti, con un’analisi testuale che va oltre il semplice dato quantitativo e risolve le ambiguità delle espressioni linguistiche per individuare i concetti chiave e le correlazioni tra di essi. e-land ha realizzato PUMA, un motore di ricerca semantico, finalizzato all'analisi, alla classificazione, alla condivisione, alla diffusione ed alla pubblicazione del patrimonio conoscitivo, o di parti specifiche dello stesso, di una organizzazione. PUMA è una piattaforma aperta e personalizzabile in base ai diversi contesti d'uso aziendali: è in grado di estrarre e integrare efficacemente informazioni provenienti da fonti distribuite ed eterogenee (Web, database, e-mail, documenti ecc.), strutturate e non strutturate, di diverso formato e lingua. L’analisi e la classificazione dei documenti si basa su una metodologia che coniuga strumenti di analisi e classificazione statistici e semantici, attraverso l’uso di dizionari specifici e la costruzione di ontologie relative al dominio di riferimento.