Motori di ricerca di ultima generazione
Transcript
Motori di ricerca di ultima generazione
Motori di ricerca di ultima generazione: il web semantico Quando parliamo di vie di comunicazione di un sistema EWS, è opportuno pensare a quale strada può essere la più rapida per il recupero dei dati e la segnalazione dell’informazione e quale tipologia di percorso informativo sia migliore per una unità operativa piuttosto che per un’altra. La questione della comunicazione in entrata ed in uscita dall’EWS si fa complessa se si pensa alle diverse fonti da cui i dati provengono e ai diversi destinatari cui l’informazione deve giungere. Ciò significa che i dati di input potrebbero presentarsi in formati differenziati la cui comparazione e valutazione da parte del Centro dell’EWS, quindi, potrebbero essere rese poco agevoli proprio per il format diversificato con cui si presentano. Dati in format diversi Se guardiamo alla strutturazione e alla gestione dell’informazione in altri sistemi, al di fuori dei sistemi di allerta rapida sulle droghe, è possibile rilevare che, attualmente, gran parte dell’informazione è conservata in formati di testo non strutturati e difficilmente trattabili. In particolare, prendendo come esempio la rete informatica, è possibile notare che il Web, così come si presenta oggi, richiede strumenti di lavoro più progrediti rispetto agli attuali, per facilitare e velocizzare la navigazione attraverso gli innumerevoli documenti che sono pubblicati nella Rete. Non sempre, infatti, la rete porta dove ci si attende e le difficoltà d’orientamento sono significative soprattutto quando si è alla ricerca di qualche soggetto tematico di cui non si conosce la localizzazione precisa. Scorrere una lunga quantità di elenchi alla ricerca dell’informazione desiderata è un’azione molto frequente, soprattutto quando la ricerca interessa un termine piuttosto comune, ma che, di fatto, rallenta la ricerca e la fruizione dell’informazione disponibile. Similmente, in ambito aziendale, è possibile notare il fatto che grandi compagnie possiedono milioni di documenti, molto spesso allocati in diverse parti del mondo, che sono resi disponibili su Internet ma che, secondo le semplici procedure di interrogazione attualmente in uso, non possono essere agevolmente interrogati e, quindi, vedono ridotto il loro potenziale informativo. Per questo, l’informazione contenuta in essi non può essere né usata dai sistemi automatici, né essere facilmente gestita dall’uomo. Ciò significa che l’informazione è difficile da catturare, da condividere e da riutilizzare anche tra i lavoratori stessi di un’organizzazione, riducendo l’efficienza dell’impresa e la sua competitività. Informazione non strutturata Inoltre, in una realtà in cui le compagnie sono sempre più valorizzate per le loro “attività intangibili” (ad esempio, il tipo e la qualità della conoscenza aziendale che le compagnie possiedono e utilizzano, che fa la differenza nella realizzazione e nella fornitura dei prodotti), la presenza di informazione non gestibile implica una perdita in termini di valore della compagnia. In maniera analoga, l’EWS si ritrova a fare i conti con vari dati, sparsi tra le varie unità 119 Sistema di allerta precoce e risposta rapida per le droghe operative deputate al loro raccoglimento e alla loro trasmissione, di natura molteplice (dal referto delle analisi di laboratorio all’intervista con persone tossicodipendenti), la cui gestione risulta complessa, quindi, non solo per la dislocazione dei dati ma anche per il loro format. Informazioni utili sui venditori di sostanze in Internet sono, anch’esse, di grande interesse e costituiscono elementi per valutare un avviso di allerta ma si tratta, pur sempre, di notizie sparse nella Rete e decisamente difficili da rilevare, considerando sia l’abilità di questi soggetti nell’eludere controlli e verifiche da parte delle forze dell’ordine sia l’enorme quantità di informazioni che si trovano in rete. Esaminati gli ostacoli per il raccoglimento e la gestione dei dati, la velocità dell’informazione rischia di risentirne negativamente, ciò traducendosi in lentezza e/o imprecisione della trasmissione dell’informazione e/o in un raggiungimento inefficiente delle strutture operative coinvolte nel sistema. Informazione non rilevabile L’iniziativa del Web semantico prende in considerazione proprio queste questioni. Con il Web semantico è possibile associare ai documenti web un senso compiuto, un significato che vada oltre le parole scritte, una “personalità” che possa aiutare ogni motore di ricerca ad individuare ciò che si sta cercando. Tutto ciò avviene in virtù non di sistemi di intelligenza artificiale bensì della marcatura dei documenti caricati sul web, di un linguaggio gestibile da tutte le applicazioni e dell’uso di vocabolari specifici, ossia insiemi di frasi alle quali possono associarsi relazioni stabilite fra elementi marcati. Più precisamente, con il termine Web semantico si intende la trasformazione del World Wide Web in un ambiente dove è possibile pubblicare non più solo documenti (pagine HTML, file, immagini, ecc…) ma anche informazioni e dati relativi ai documenti stessi (detti metadati) in un formato adatto all’interrogazione, interpretazione e, più in generale, all’elaborazione automatica di quella stessa informazione (Daconta, 2003). Web semantico Per funzionare, il Web semantico deve poter disporre di un tipo di informazione strutturata e di regole di deduzione per gestirla, in modo da accostare il più precisamente possibile le informazioni che un’interrogazione ha richiesto. Per la sua costruzione/definizione, quindi, si utilizza il linguaggio XML 1 che consente di descrivere semanticamente (e con il dettaglio desiderato) le diverse parti di un documento. Un documento così descritto può, in seguito, essere elaborato per usi diversi: estrazione di informazioni secondo specifici criteri, riformulazione più o meno parziale per adattarlo ad altri formati, visualizzazione del documento in funzione della capacità del terminale. Tuttavia, sebbene sia un buon modo per specificare le informazioni, un documento, ancorché espresso in formato XML, è poco adatto al Web, che per sua natura è distribuito e decentralizzato e, per tanto, le informazioni su una particolare entità possono essere dislocate ovunque. Infatti, con XML è possibile descrivere adeguatamente i contenuti di un documento ma la sintassi XML non definisce alcun tipo di meccanismo esplicito per qualificare le relazioni tra i documenti. Nel fare ciò non è d’aiuto neppure il meccanismo dei collegamenti ipertestuali, reso popolare dall’HTML, perché amorfo, ossia non in grado di prevedere la descrizione del legame definito (BernersLee 2002). L’evoluzione del Web in Web semantico inizia con la definizione, da parte del World Wide Web Consortium, dello standard RDF (Resource Description Framework), una Descrizione semantica dei documenti 1 Extensible Markup Language, ovvero “linguaggio di marcatura estensibile”. Si tratta di un metalinguaggio creato e gestito dal World Wide Web Consortium e costituisce una semplificazione dell’SGLM, da cui nacque nel 1988. L’SGLM, acronimo per Standard General Markup Language è uno standard per la descrizione logica dei documenti che si basa su un tipo di marcatura generica chiamata “marcatura descrittiva”. 120 Motori di ricerca di ultima generazione: il web semantico particolare applicazione XML che standardizza la definizione di relazioni tra informazioni, ispirandosi ai principi della logica dei predicati 2 e ricorrendo agli strumenti tipici del Web e dell’XML. Comunque, al di là dei linguaggi specifici necessari alla marcatura dei documenti, lo sforzo che sta alla base del Web semantico, in pratica, è quello di aggiungere contenuto concettuale ai documenti Web, in modo da accedere al quid dell’informazione piuttosto che a del materiale non strutturato, permettendo così all’informazione stessa di essere gestita in modo automatico. A tal fine, come abbiamo visto, è essenziale per il Web semantico produrre metodi automatici o semiautomatici, come i linguaggi RDF, che estraggano informazioni dai documenti relativi al Web, sia per contribuire alla registrazione dei nuovi documenti sia per estrarre informazioni aggiuntive da documenti esistenti non strutturati o solo parzialmente strutturati. Dato l’aumento dell’uso del Web (e in futuro del Web semantico) per la gestione dell’informazione, questo processo di trattamento dei documenti risulta essere importante anche per la gestione della conoscenza aziendale tout court. Infatti, da quanto precedentemente detto si evince che, se il linguaggio XML si rivolge alla semplice descrizione di documenti, il linguaggio RDF (e le sue evoluzioni) è particolarmente indicato per rappresentare dati, fornendo un metodo potenzialmente capace di risolvere un tema fino ad oggi solo parzialmente soddisfatto dagli strumenti informatici quale la gestione della conoscenza aziendale, ovvero la capacità di trattare non solo le diverse anagrafiche (di prodotto, clienti, fornitori, dipendenti, ecc…) e di classificare i documenti tecnici o amministrativi (analisi di mercato, specifiche tecniche, norme, procedure, ecc…) ma di arrivare anche a gestire i contenuti di questi documenti permettendo, per esempio, il reperimento delle informazioni in funzione delle specifiche esigenze del richiedente, integrando quanto reso disponibile da fonti diverse. Gestione della conoscenza L’applicazione potenziale di questi strumenti del Web è piuttosto ampia. Un esempio che abbiamo ritenuto interessante considerare in vista di una possibile relazione tra tale strumento e i sistemi EWS è rappresentato dal Server IDOL (Intelligence Data Operating Layer), prodotto in esclusiva dall’azienda inglese Autonomy. Questo software costituisce una soluzione alla comprensione dei contenuti di qualsiasi tipo di informazione, indipendentemente dal luogo in cui quest’informazione è contenuta e/o dal formato con cui si presenta – sia essa in formato di testo, in qualunque lingua, immagine, audio, strutturata o non strutturata. Tale tecnologia fornisce la cosiddetta “integrazione attraverso la comprensione”, consentendo lo scambio di comunicazione all’interno del sistema organizzativo senza alcuno sforzo e senza dover utilizzare complicati connettori o metadati, di difficile comprensione e/o gestione. In particolare, il server IDOL si basa sul tipo di ricerca concettuale cui si riferisce il Web semantico e fornisce le funzioni operative chiave che, per un’azienda, rappresentano effettivi benefici, quali l’aumento della produttività all’interno dell’organizzazione, un aumento della protezione dell’informazione, una significativa riduzione dei costi per il mantenimento dei dati e l’eliminazione di inesattezze provocate da errore umano. Le funzionalità di IDOL spaziano tra il reperimento dei dati, la loro categorizzazione, l’allerta e la diffusione dei dati, il loro raggruppamento, la gestione di metadati e la sicurezza dei dati stessi. Tutto ciò con lo scopo, da un lato, di meglio informare e velocizzare il processo di decision making, dall’altro di migliorare l’efficienza operativa e ridurre i costi della gestione dell’informazione. Intelligence Data Operating Layer 2 In estrema sintesi, secondo la logica dei predicati le informazioni sono esprimibili con asserzioni costituite da triple formate da soggetto, predicato, valore. Per maggiori informazioni si veda RDF Primer del W3C, http://www.w3.org/TR/rdf-primer/ 121 Sistema di allerta precoce e risposta rapida per le droghe Figura 1 - Schema delle funzionalità di IDOL. Le caratteristiche del raccoglimento concettuale dei dati include l’uso di un linguaggio non strutturato di interrogazione dei documenti, detto Unstructured Query Language (UQL) che è in grado di affrontare le sintassi più complesse, anche quelle poste in un linguaggio naturale. IDOL accetta, in qualità di input, parti di contenuti, quali possono essere una frase, un paragrafo o una pagina di testo, o un’informazione contenuta in frammenti di file audio o di discorsi, e riporta riferimenti a documenti concettualmente relazionati, ordinati per rilevanza o distanza contestuale. Tale processo viene utilizzato per generare hyperlinks tra parti di contenuti. Ciò che risulta innovativo e utile per un EWS è il fatto che le soluzioni di Autonomy per la classificazione dell’informazione rimuovono la necessità, da parte delle organizzazioni, di basarsi sull’intervento umano o sul processamento manuale dell’informazione, come, ad esempio, l’etichettatura manuale dei documenti, di solito richiesta per far funzionare la maggior parte delle altre applicazioni di e-business. Basandosi sulla capacità del Server IDOL di capire qualsiasi tipo di informazione contestuale utilizzando un’avanzata tecnologia di pattern-recognition, Autonomy fornisce varie soluzioni di classificazione ampiamente graduata, che cataloga l’informazione in maniera completamente automatica. In questo modo, i dati risultano più accessibili, fornendo agli utenti un’informazione che è stata chiaramente definita e automaticamente localizzata all’interno di una struttura logicamente guidata. In un tale stato di cose, Autonomy costruisce automaticamente un network di collaborazioni tale per cui è possibile che l’organizzazione si concentri sulla costruzione di comunità d’esperti, alimentando la collaborazione e riunendo i soggetti coinvolti attorno a forum di discussione per realizzare una congruenza di obiettivi, limitare gli sforzi e aumentare i livelli di produttività. Network di collaborazioni Per quanto riguarda la diffusione dei contenuti, questi possono essere trasmessi e anche personalizzati attraverso numerosi canali, inclusi browsers, dispositivi mobili (telefono, personal digital assistants, ecc…), o anche TV digitale. Lo stesso contenuto può essere riproposto ad ogni dispositivo e l’interazione tra utenti attraverso tali dispositivi aiuta il software a capire il tipo di interesse e l’expertise degli utenti. In questo modo, vengono condizionate le successive ricerche di informazione e vengono perfezionati i criteri di rilevanza con cui presentare i documenti. In questo modo si ottiene la con- Trasmissione dei contenuti 122 Motori di ricerca di ultima generazione: il web semantico segna automatica e la personalizzazione di informazioni rilevanti e puntuali ai diversi utenti e, oltre a rendere la fase di decision making più informata e più rapida, il sistema rende l’informazione maggiormente accessibile, aumentando i vantaggi competitivi dell’organizzazione. Figura 2 - Esempio degli avvisi che IDOL è in grado dare nell’ambito del rispetto delle policy aziendali: se il contenuto delle mail inviate dagli impiegati non è in linea con le policy dell’azienda, il sistema segnala l’evento al mittente con un warning o, eventualmente, bloccando l’invio della mail. In riferimento all’utilizzo che un EWS potrebbe fare di un tale software, è possibile sostenere che una sua eventuale applicazione potrebbe agevolare il raccoglimento di differenti tipologie di dati sia in termini di contenuto che di tempistica. In altre parole, l’utilizzo di un motore di ricerca come IDOL consentirebbe di mettere insieme dati provenienti da varie fonti, e quindi disponibili in modo più o meno strutturato, ma accomunati dallo stesso concetto di base, in relazione al fenomeno oggetto di analisi (la comparsa di nuove sostanze e/o di nuovi pattern di consumo). Ciò garantirebbe una maggior rapidità nella comunicazione di tali dati perché automaticamente definiti e localizzati dal server. Verrebbe, inoltre, agevolata la ricerca su Web di elementi che denotano una vendita di sostanze via Internet, poiché sarebbe possibile ricevere l’avviso di eventuali segni e avvisaglie del fenomeno tramite il riconoscimento concettuale di questo tipo di dato: la raccolta di più indizi, anche di natura diversa, ma significativamente e concettualmente correlati, può arrivare a costituire una segnalazione d’allerta. I questo modo, chi è responsabile della definizione del grado di allerta attorno a cui organizzare l’azione di risposta potrebbe avvalersi di un tipo di informazione più chiara e completa, favorendo la valutazione dell’informazione stessa e la presa di decisioni correlate. Non è da sottovalutare nemmeno l’importanza dell’azione di gestione dell’informazione se si considera il fatto che, una volta raccolta l’informazione dai vari spazi in cui era conservata, è possibile elaborarla in modo tale da giungere ad un vocabolario e ad IDOL e EWS 123 Sistema di allerta precoce e risposta rapida per le droghe uno standard di interpretazione comuni, comprensibile a tutti i soggetti partecipanti nel sistema e da loro stessi condivisibile. L’importanza dell’utilizzo di un prodotto come IDOL è data anche dal fatto che, in corrispondenza della gestione dell’informazione, vi sarebbe la promozione di un network collaborativo tra tutti gli attori coinvolti nell’EWS. Una rete di collaborazione, in un contesto come quello dell’EWS, rappresenta una garanzia alla corretta diffusione dei contenuti dell’informazione e alla personalizzazione di tale informazione in relazione al destinatario della stessa, secondo i criteri già descritti in paragrafi precedenti. Agevolare la collaborazione tra attori, quindi, contribuirebbe ad incrementare l’efficienza del sistema, riducendo i tempi per l’acquisizione dei dati e della trasmissione dell’avviso di allerta, e rafforzerebbe la capacità cooperativa delle unità operative, aumentando l’efficienza e l’efficacia di un Early Warning System. 124