Motori di ricerca di ultima generazione

Transcript

Motori di ricerca di ultima generazione
Motori di ricerca di ultima
generazione: il web semantico
Quando parliamo di vie di comunicazione di un sistema EWS, è opportuno pensare a
quale strada può essere la più rapida per il recupero dei dati e la segnalazione dell’informazione e quale tipologia di percorso informativo sia migliore per una unità operativa piuttosto che per un’altra.
La questione della comunicazione in entrata ed in uscita dall’EWS si fa complessa se
si pensa alle diverse fonti da cui i dati provengono e ai diversi destinatari cui l’informazione deve giungere. Ciò significa che i dati di input potrebbero presentarsi in formati
differenziati la cui comparazione e valutazione da parte del Centro dell’EWS, quindi,
potrebbero essere rese poco agevoli proprio per il format diversificato con cui si presentano.
Dati in format diversi
Se guardiamo alla strutturazione e alla gestione dell’informazione in altri sistemi, al di
fuori dei sistemi di allerta rapida sulle droghe, è possibile rilevare che, attualmente,
gran parte dell’informazione è conservata in formati di testo non strutturati e difficilmente trattabili. In particolare, prendendo come esempio la rete informatica, è possibile notare che il Web, così come si presenta oggi, richiede strumenti di lavoro più progrediti rispetto agli attuali, per facilitare e velocizzare la navigazione attraverso gli innumerevoli documenti che sono pubblicati nella Rete. Non sempre, infatti, la rete porta
dove ci si attende e le difficoltà d’orientamento sono significative soprattutto quando
si è alla ricerca di qualche soggetto tematico di cui non si conosce la localizzazione
precisa. Scorrere una lunga quantità di elenchi alla ricerca dell’informazione desiderata è un’azione molto frequente, soprattutto quando la ricerca interessa un termine
piuttosto comune, ma che, di fatto, rallenta la ricerca e la fruizione dell’informazione
disponibile.
Similmente, in ambito aziendale, è possibile notare il fatto che grandi compagnie possiedono milioni di documenti, molto spesso allocati in diverse parti del mondo, che
sono resi disponibili su Internet ma che, secondo le semplici procedure di interrogazione attualmente in uso, non possono essere agevolmente interrogati e, quindi, vedono ridotto il loro potenziale informativo. Per questo, l’informazione contenuta in essi
non può essere né usata dai sistemi automatici, né essere facilmente gestita dall’uomo. Ciò significa che l’informazione è difficile da catturare, da condividere e da riutilizzare anche tra i lavoratori stessi di un’organizzazione, riducendo l’efficienza dell’impresa e la sua competitività.
Informazione non
strutturata
Inoltre, in una realtà in cui le compagnie sono sempre più valorizzate per le loro “attività intangibili” (ad esempio, il tipo e la qualità della conoscenza aziendale che le compagnie possiedono e utilizzano, che fa la differenza nella realizzazione e nella fornitura
dei prodotti), la presenza di informazione non gestibile implica una perdita in termini di
valore della compagnia.
In maniera analoga, l’EWS si ritrova a fare i conti con vari dati, sparsi tra le varie unità
119
Sistema di allerta precoce e risposta rapida per le droghe
operative deputate al loro raccoglimento e alla loro trasmissione, di natura molteplice
(dal referto delle analisi di laboratorio all’intervista con persone tossicodipendenti), la
cui gestione risulta complessa, quindi, non solo per la dislocazione dei dati ma anche
per il loro format. Informazioni utili sui venditori di sostanze in Internet sono, anch’esse,
di grande interesse e costituiscono elementi per valutare un avviso di allerta ma si
tratta, pur sempre, di notizie sparse nella Rete e decisamente difficili da rilevare, considerando sia l’abilità di questi soggetti nell’eludere controlli e verifiche da parte delle
forze dell’ordine sia l’enorme quantità di informazioni che si trovano in rete.
Esaminati gli ostacoli per il raccoglimento e la gestione dei dati, la velocità dell’informazione rischia di risentirne negativamente, ciò traducendosi in lentezza e/o imprecisione della trasmissione dell’informazione e/o in un raggiungimento inefficiente delle
strutture operative coinvolte nel sistema.
Informazione non
rilevabile
L’iniziativa del Web semantico prende in considerazione proprio queste questioni. Con
il Web semantico è possibile associare ai documenti web un senso compiuto, un significato che vada oltre le parole scritte, una “personalità” che possa aiutare ogni motore di ricerca ad individuare ciò che si sta cercando. Tutto ciò avviene in virtù non di
sistemi di intelligenza artificiale bensì della marcatura dei documenti caricati sul web,
di un linguaggio gestibile da tutte le applicazioni e dell’uso di vocabolari specifici, ossia insiemi di frasi alle quali possono associarsi relazioni stabilite fra elementi marcati.
Più precisamente, con il termine Web semantico si intende la trasformazione del World
Wide Web in un ambiente dove è possibile pubblicare non più solo documenti (pagine HTML, file, immagini, ecc…) ma anche informazioni e dati relativi ai documenti
stessi (detti metadati) in un formato adatto all’interrogazione, interpretazione e, più in
generale, all’elaborazione automatica di quella stessa informazione (Daconta, 2003).
Web semantico
Per funzionare, il Web semantico deve poter disporre di un tipo di informazione strutturata e di regole di deduzione per gestirla, in modo da accostare il più precisamente
possibile le informazioni che un’interrogazione ha richiesto. Per la sua costruzione/definizione, quindi, si utilizza il linguaggio XML 1 che consente di descrivere semanticamente (e con il dettaglio desiderato) le diverse parti di un documento. Un documento
così descritto può, in seguito, essere elaborato per usi diversi: estrazione di informazioni secondo specifici criteri, riformulazione più o meno parziale per adattarlo ad altri
formati, visualizzazione del documento in funzione della capacità del terminale.
Tuttavia, sebbene sia un buon modo per specificare le informazioni, un documento,
ancorché espresso in formato XML, è poco adatto al Web, che per sua natura è distribuito e decentralizzato e, per tanto, le informazioni su una particolare entità possono
essere dislocate ovunque. Infatti, con XML è possibile descrivere adeguatamente i
contenuti di un documento ma la sintassi XML non definisce alcun tipo di meccanismo esplicito per qualificare le relazioni tra i documenti. Nel fare ciò non è d’aiuto neppure il meccanismo dei collegamenti ipertestuali, reso popolare dall’HTML, perché
amorfo, ossia non in grado di prevedere la descrizione del legame definito (BernersLee 2002).
L’evoluzione del Web in Web semantico inizia con la definizione, da parte del World
Wide Web Consortium, dello standard RDF (Resource Description Framework), una
Descrizione
semantica dei
documenti
1
Extensible Markup Language, ovvero “linguaggio di marcatura estensibile”. Si tratta di un metalinguaggio creato e gestito dal World Wide Web Consortium e costituisce una semplificazione dell’SGLM, da cui
nacque nel 1988. L’SGLM, acronimo per Standard General Markup Language è uno standard per la descrizione logica dei documenti che si basa su un tipo di marcatura generica chiamata “marcatura descrittiva”.
120
Motori di ricerca di ultima generazione: il web semantico
particolare applicazione XML che standardizza la definizione di relazioni tra informazioni, ispirandosi ai principi della logica dei predicati 2 e ricorrendo agli strumenti tipici
del Web e dell’XML. Comunque, al di là dei linguaggi specifici necessari alla marcatura dei documenti, lo sforzo che sta alla base del Web semantico, in pratica, è quello
di aggiungere contenuto concettuale ai documenti Web, in modo da accedere al quid
dell’informazione piuttosto che a del materiale non strutturato, permettendo così all’informazione stessa di essere gestita in modo automatico. A tal fine, come abbiamo visto, è essenziale per il Web semantico produrre metodi automatici o semiautomatici,
come i linguaggi RDF, che estraggano informazioni dai documenti relativi al Web, sia
per contribuire alla registrazione dei nuovi documenti sia per estrarre informazioni aggiuntive da documenti esistenti non strutturati o solo parzialmente strutturati.
Dato l’aumento dell’uso del Web (e in futuro del Web semantico) per la gestione dell’informazione, questo processo di trattamento dei documenti risulta essere importante
anche per la gestione della conoscenza aziendale tout court. Infatti, da quanto precedentemente detto si evince che, se il linguaggio XML si rivolge alla semplice descrizione di documenti, il linguaggio RDF (e le sue evoluzioni) è particolarmente indicato
per rappresentare dati, fornendo un metodo potenzialmente capace di risolvere un
tema fino ad oggi solo parzialmente soddisfatto dagli strumenti informatici quale la gestione della conoscenza aziendale, ovvero la capacità di trattare non solo le diverse
anagrafiche (di prodotto, clienti, fornitori, dipendenti, ecc…) e di classificare i documenti tecnici o amministrativi (analisi di mercato, specifiche tecniche, norme, procedure, ecc…) ma di arrivare anche a gestire i contenuti di questi documenti permettendo, per esempio, il reperimento delle informazioni in funzione delle specifiche esigenze del richiedente, integrando quanto reso disponibile da fonti diverse.
Gestione della
conoscenza
L’applicazione potenziale di questi strumenti del Web è piuttosto ampia. Un esempio
che abbiamo ritenuto interessante considerare in vista di una possibile relazione tra
tale strumento e i sistemi EWS è rappresentato dal Server IDOL (Intelligence Data
Operating Layer), prodotto in esclusiva dall’azienda inglese Autonomy.
Questo software costituisce una soluzione alla comprensione dei contenuti di qualsiasi tipo di informazione, indipendentemente dal luogo in cui quest’informazione è
contenuta e/o dal formato con cui si presenta – sia essa in formato di testo, in qualunque lingua, immagine, audio, strutturata o non strutturata. Tale tecnologia fornisce
la cosiddetta “integrazione attraverso la comprensione”, consentendo lo scambio di
comunicazione all’interno del sistema organizzativo senza alcuno sforzo e senza dover utilizzare complicati connettori o metadati, di difficile comprensione e/o gestione.
In particolare, il server IDOL si basa sul tipo di ricerca concettuale cui si riferisce il Web
semantico e fornisce le funzioni operative chiave che, per un’azienda, rappresentano
effettivi benefici, quali l’aumento della produttività all’interno dell’organizzazione, un aumento della protezione dell’informazione, una significativa riduzione dei costi per il
mantenimento dei dati e l’eliminazione di inesattezze provocate da errore umano.
Le funzionalità di IDOL spaziano tra il reperimento dei dati, la loro categorizzazione, l’allerta e la diffusione dei dati, il loro raggruppamento, la gestione di metadati e la sicurezza dei dati stessi. Tutto ciò con lo scopo, da un lato, di meglio informare e velocizzare il processo di decision making, dall’altro di migliorare l’efficienza operativa e ridurre i costi della gestione dell’informazione.
Intelligence Data
Operating Layer
2
In estrema sintesi, secondo la logica dei predicati le informazioni sono esprimibili con asserzioni costituite da triple formate da soggetto, predicato, valore. Per maggiori informazioni si veda RDF Primer del
W3C, http://www.w3.org/TR/rdf-primer/
121
Sistema di allerta precoce e risposta rapida per le droghe
Figura 1 - Schema delle funzionalità di IDOL.
Le caratteristiche del raccoglimento concettuale dei dati include l’uso di un linguaggio
non strutturato di interrogazione dei documenti, detto Unstructured Query Language
(UQL) che è in grado di affrontare le sintassi più complesse, anche quelle poste in un
linguaggio naturale. IDOL accetta, in qualità di input, parti di contenuti, quali possono
essere una frase, un paragrafo o una pagina di testo, o un’informazione contenuta in
frammenti di file audio o di discorsi, e riporta riferimenti a documenti concettualmente
relazionati, ordinati per rilevanza o distanza contestuale. Tale processo viene utilizzato
per generare hyperlinks tra parti di contenuti.
Ciò che risulta innovativo e utile per un EWS è il fatto che le soluzioni di Autonomy per
la classificazione dell’informazione rimuovono la necessità, da parte delle organizzazioni, di basarsi sull’intervento umano o sul processamento manuale dell’informazione,
come, ad esempio, l’etichettatura manuale dei documenti, di solito richiesta per far
funzionare la maggior parte delle altre applicazioni di e-business. Basandosi sulla capacità del Server IDOL di capire qualsiasi tipo di informazione contestuale utilizzando
un’avanzata tecnologia di pattern-recognition, Autonomy fornisce varie soluzioni di
classificazione ampiamente graduata, che cataloga l’informazione in maniera completamente automatica.
In questo modo, i dati risultano più accessibili, fornendo agli utenti un’informazione che
è stata chiaramente definita e automaticamente localizzata all’interno di una struttura
logicamente guidata.
In un tale stato di cose, Autonomy costruisce automaticamente un network di collaborazioni tale per cui è possibile che l’organizzazione si concentri sulla costruzione di
comunità d’esperti, alimentando la collaborazione e riunendo i soggetti coinvolti attorno a forum di discussione per realizzare una congruenza di obiettivi, limitare gli sforzi
e aumentare i livelli di produttività.
Network di
collaborazioni
Per quanto riguarda la diffusione dei contenuti, questi possono essere trasmessi e anche personalizzati attraverso numerosi canali, inclusi browsers, dispositivi mobili (telefono, personal digital assistants, ecc…), o anche TV digitale. Lo stesso contenuto può
essere riproposto ad ogni dispositivo e l’interazione tra utenti attraverso tali dispositivi
aiuta il software a capire il tipo di interesse e l’expertise degli utenti. In questo modo,
vengono condizionate le successive ricerche di informazione e vengono perfezionati
i criteri di rilevanza con cui presentare i documenti. In questo modo si ottiene la con-
Trasmissione dei
contenuti
122
Motori di ricerca di ultima generazione: il web semantico
segna automatica e la personalizzazione di informazioni rilevanti e puntuali ai diversi
utenti e, oltre a rendere la fase di decision making più informata e più rapida, il sistema
rende l’informazione maggiormente accessibile, aumentando i vantaggi competitivi
dell’organizzazione.
Figura 2 - Esempio degli avvisi che IDOL è in grado dare nell’ambito del rispetto delle policy aziendali: se il contenuto delle mail inviate dagli impiegati non è in linea con le policy
dell’azienda, il sistema segnala l’evento al mittente con un warning o, eventualmente,
bloccando l’invio della mail.
In riferimento all’utilizzo che un EWS potrebbe fare di un tale software, è possibile sostenere che una sua eventuale applicazione potrebbe agevolare il raccoglimento di
differenti tipologie di dati sia in termini di contenuto che di tempistica. In altre parole,
l’utilizzo di un motore di ricerca come IDOL consentirebbe di mettere insieme dati provenienti da varie fonti, e quindi disponibili in modo più o meno strutturato, ma accomunati dallo stesso concetto di base, in relazione al fenomeno oggetto di analisi (la
comparsa di nuove sostanze e/o di nuovi pattern di consumo). Ciò garantirebbe una
maggior rapidità nella comunicazione di tali dati perché automaticamente definiti e localizzati dal server. Verrebbe, inoltre, agevolata la ricerca su Web di elementi che denotano una vendita di sostanze via Internet, poiché sarebbe possibile ricevere l’avviso
di eventuali segni e avvisaglie del fenomeno tramite il riconoscimento concettuale di
questo tipo di dato: la raccolta di più indizi, anche di natura diversa, ma significativamente e concettualmente correlati, può arrivare a costituire una segnalazione d’allerta.
I questo modo, chi è responsabile della definizione del grado di allerta attorno a cui
organizzare l’azione di risposta potrebbe avvalersi di un tipo di informazione più chiara
e completa, favorendo la valutazione dell’informazione stessa e la presa di decisioni
correlate.
Non è da sottovalutare nemmeno l’importanza dell’azione di gestione dell’informazione
se si considera il fatto che, una volta raccolta l’informazione dai vari spazi in cui era
conservata, è possibile elaborarla in modo tale da giungere ad un vocabolario e ad
IDOL e EWS
123
Sistema di allerta precoce e risposta rapida per le droghe
uno standard di interpretazione comuni, comprensibile a tutti i soggetti partecipanti nel
sistema e da loro stessi condivisibile.
L’importanza dell’utilizzo di un prodotto come IDOL è data anche dal fatto che, in corrispondenza della gestione dell’informazione, vi sarebbe la promozione di un network
collaborativo tra tutti gli attori coinvolti nell’EWS. Una rete di collaborazione, in un contesto come quello dell’EWS, rappresenta una garanzia alla corretta diffusione dei contenuti dell’informazione e alla personalizzazione di tale informazione in relazione al destinatario della stessa, secondo i criteri già descritti in paragrafi precedenti.
Agevolare la collaborazione tra attori, quindi, contribuirebbe ad incrementare l’efficienza
del sistema, riducendo i tempi per l’acquisizione dei dati e della trasmissione dell’avviso di allerta, e rafforzerebbe la capacità cooperativa delle unità operative, aumentando l’efficienza e l’efficacia di un Early Warning System.
124