fonti di informazione risorse informative rete Internet multimediali, a

Transcript

fonti di informazione risorse informative rete Internet multimediali, a
INTERNET COME RETE INFORMATIVA – APPUNTI 1 Internet e il Web rappresentano una risorsa informativa immensa, una delle più ricche ed eterogenee che siano mai state rese disponibili a un pubblico così vasto, eterogeneo e disperso quali gli utenti Internet attuali. Tuttavia la natura e le caratteristiche di Internet sollevano problematiche rilevanti con riferimento alle modalità di ricerca e reperimento dell’informazione in rete. Può essere utile introdurre un semplice schema degli elementi fondamentali in gioco quando si parla di Internet come rete informativa. Da un lato vi sono le fonti di informazione, qui intese come l’insieme dei soggetti (singoli individui, imprese, enti, istituzioni, ecc.) che mettono a disposizione contenuti informativi in rete. Tali fonti di informazione pubblicano dei contenuti informativi ossia rendono disponibili al pubblico delle risorse informative. Nel nostro caso, le risorse informative vengono rese disponibili attraverso la rete Internet, ossia l’insieme dei calcolatori e delle applicazioni Internet (i server, i siti e le pagine web, i database, ecc.). Infine vi sono gli utenti delle risorse informative, ossia i soggetti (privati, ricercatori, professionisti, o quant’altro) che effettuano ricerche in rete al fine di reperire il contenuto di cui hanno bisogno. Con riferimento allo schema introdotto, esaminiamo brevemente le caratteristiche fondamentali di ciascuno degli elementi descritti, allo scopo di evidenziare quali proprietà del “sistema Internet” lo rendono unico rispetto ad altre risorse informative (biblioteche, archivi pubblici e privati, mass media, editori, ecc). Per quanto riguarda innanzitutto la rete Internet in quanto tale, essa rappresenta come è noto la prima rete di comunicazione globale che permettere a un’utenza potenzialmente vastissima di trasmettere, ricevere, comunicare, rendere disponibili contenuti informativi ricchi, articolati, multimediali, a costi modesti e senza limitazioni geografiche. La dimensione della rete, già oggi considerevole, è in continua espansione. Non è facile definire né misurare la “dimensione” di Internet e del Web. Tuttavia tutte le stime disponibili dei principali indicatori tipicamente utilizzati (dal numero di nodi principali o “host computer”, al numero di pagine web, al numero di utenti, ecc.) indicano chiaramente che si tratta di un fenomeno di dimensioni enormi e tuttora in crescita sostenuta. Un dato importante riguarda il numero di utenti che accedono alla rete (saltuariamente o frequentemente), e che secondo le stime più prudenti sarebbero ormai parecchie centinaia di milioni in tutto il mondo. Una caratteristica importante della rete, che deriva dalla sua stessa struttura tecnica, è la sua organizzazione sostanzialmente non gerarchica quantomeno da un punto di vista logico (ossia di tipo “peer­to­peer”), nella quale i nodi o utenti collegati risultano cioè a un livello sostanzialmente paritario per quanto riguarda accessi e comunicazione in rete. Inoltre se consideriamo il World Wide Web (che, va ricordato, è solo da considerarsi “un sottoinsieme” di Internet, essendone in pratica un’applicazione specifica), anche l’organizzazione delle diverse pagine Web non ha una struttura preordinata: i collegamenti ipertestuali fanno sì che da un nodo della rete sia possibile raggiungerne qualsiasi altro senza che vi siano percorsi obbligatori secondo livelli gerarchici predefiniti. Data la facilità con cui è possibile aggiungere un nuovo nodo o far accedere un nuovo utente, la rete risulta un ambiente altamente dinamico la cui struttura si modifica continuamente. Risulta inoltre molto semplice per una qualsiasi singola fonte informativa modificare i contenuti e i documenti pubblicati in rete, il che accresce ulteriormente il carattere dinamico del Web. Il supporto applicativo multimediale, sempre più articolato come formati (audio, video, dati, testi, immagini, spesso integrati tra loro e spesso con la possibilità di consultazioni interattive ­ basta pensare alle “visite virtuali” ad un museo), consente inoltre di veicolare attraverso lo stesso unico “medium” una considerevole ricchezza di contenuto: lo stesso concetto di Web 2.0 recentemente introdotto riassume questa natura “sociale” dei processi di generazione dei contenuti in Internet. 1 Redatti da Ettore Bolisani. I presenti appunti sono unicamente destinati agli studenti come traccia per la preparazione all’esame di Gestione dell’Informazione e delle Aziende in rete; nessun altr o uso né citazione sono consentiti senza il per messo esplicito dell’autor e.
1 Rispetto agli altri mezzi di comunicazione, Internet è inoltre in grado di consentire attraverso la stessa infrastruttura un’estrema varietà di modalità di comunicazione, essendo possibile agli utenti scegliere ad esempio modalità monodirezionali o bidirezionali, oppure one­to­one, one­to­many, o many­to­many, e così via. Come “risorsa” dal punto di vista informativo, le statistiche mostrano come Internet supera ormai abbondantemente qualsiasi altro sistema esistente al mondo e mai creato dall’uomo, comprese le più grandi biblioteche o banche dati. La dimensione di Internet come risorsa informativa, già immensa se si considera ciò che è disponibile nelle semplici pagine Web, è addirittura ancora più grande (e tale da risultare pressoché non misurabile) se si tiene conto anche del cosiddetto “deep web” (v. più avanti) ossia l’immenso patrimonio di dati nelle forme più disparate disponibile all’interno dei singoli computer e reso accessibile attraverso la rete, anche se di solito con modalità particolari. Per quanto riguarda le fonti e le risorse informative, come detto Internet è un contenitore a cui si può avere accesso in modo estremamente facile, specialmente in confronto a tutti gli altri media esistenti; la facilità di inserimento e di aggiornamento consentono praticamente a chiunque di inserire in rete i propri contenuti in tempi rapidi e a costi quasi nulli. Inoltre gli aggiornamenti possono essere effettuati in tempi altrettanto rapidi e senza la necessità di procedure complesse. Tutto ciò ha contribuito a determinare l’estrema eterogeneità sia delle fonti di informazione su Internet (che possono andare dal singolo individuo, alla grande multinazionale, all’istituzione nazionale o internazionale), sia dei tipi di contenuti in rete o del loro formato. I materiali disponibili sono talmente tanti e vari che si parla ormai di “information overload”, intendendo con questo termine il rischio di sovraccarico a cui è soggetto chi cerchi del materiale in rete. Il meccanismo dei link ipertestuali favorisce la costruzione di connessioni tra contenuti diversi, il che aumenta ulteriormente la ricchezza informativa del mezzo, apre anche nuove opportunità di comunicazione, ma può anche rendere più complessa la navigazione. Inoltre all’interno della stessa piattaforma Internet ciascuna fonte informativa può privilegiare le modalità di fornitura delle informazioni che preferisce ­ dall’accesso libero a quello protetto, dall’informazione gratuita a quella a pagamento. Un’altra caratteristica dell’Internet attuale è la sostanziale assenza o difficoltà di porre controlli e censure sui contenuti e sulle fonti; ciò ha espanso la libertà di informazione e comunicazione, talvolta al punto di sollevare problemi di decenza o di legalità. Un cenno speciale va fatto al cosiddetto “deep Web”. Nel considerare Internet come risorsa di informazione spesso ci si limita agli aspetti più “superficiali” ossia più direttamente accessibili e conteggiabili: vale a dire ad esempio le pagine Web ­ o meglio ancora, le pagine Web dei primi livelli che sono più facilmente accessibili a un navigatore in Internet. Tuttavia, all’interno dei milioni di computer connessi in rete è disponibile in realtà infinitamente di più: i dati interni dei database, le banche dati, i file residenti in molti computer e che sono in molti casi accessibili da Internet e perfino dal Web. Poniamo il caso di una banca dati (ad es. bibliografica) che viene consultata attraverso il Web. Raggiunto il sito della banca dati, e utilizzando una parola chiave adeguata, i dati richiesti (ad es. il testo di un articolo scientifico) possono essere reperiti all’interno del calcolatore che ospita la banca dati e vengono resi disponibili su Internet all’utente: ad esempio viene generata “dinamicamente” una pagina web che riporta le informazioni richieste, reperite all’interno della banca dati stessa. Questo contenuto appartiene al deep web, nel senso che non è accessibile direttamente come pagina web in quanto tale, ma deve essere raggiunto utilizzando un’applicazione di ricerca interna di quello specifico archivio online. Se consideriamo tutti i dati accessibili in questo o simili modi, possiamo dunque parlare di “deep Web”: intendendo cioè tutto l’insieme delle informazioni potenzialmente disponibili su Internet e che sono reperibili effettuando ricerche o esplorazioni all’interno dei singoli database o dei singoli computer. Si tratta di un bacino di informazioni la cui dimensione è pressoché impossibile da misurare, ma che secondo molti è presumibilmente molto più grande di ciò che è accessibile direttamente esaminando le pagine Web “statiche” direttamente consultabili con una navigazione.
2 Considerando infine gli utenti delle informazioni su Internet (ossia coloro che “cercano contenuti”), anche qui vi sono alcuni aspetti importanti da sottolineare. Innanzitutto si tratta ormai di un pubblico estremamente eterogeneo, che esprime i fabbisogni informativi più disparati. Inoltre lo stesso utente generalmente ricerca in rete informazioni di tipo assai diverso tra loro. Le modalità di accesso possono essere estremamente differenziate, in relazione alle disponibilità di tempo, competenze, o denaro. Si può andare dall’utente specialista in grado magari di effettuare ricerche lunghe e onerose da postazioni di enti di ricerca, ai navigatori occasionali “da casa” che hanno necessità di effettuare ricerche rapide a basso costo, ecc. Oggi si assiste comunque alla progressiva modificazione delle tipologie di utenti che accedono alla rete. Dalle élite di specialisti che caratterizzavano i primi usi (ad es. ricercatori, e specialmente nel campo della Computer Science), con l’apertura al grande pubblico sta crescendo rapidamente la percentuale di utenti “non specialisti”, magari caratterizzati da livelli di istruzione non elevati, o con competenze non sofisticate soprattutto nell’uso del mezzo Internet stesso. Si tratta dunque di un contesto caratterizzato da una sostanziale non omogeneità degli utenti per quanto riguarda interessi, fabbisogni informativi, competenze, cultura, disponibilità di risorse, ecc.; inoltre con un gran numero di utenti non particolarmente abili nell’uso degli strumenti di ricerca messi a disposizione dalla rete. Tutto questo rende molto varie e articolate le modalità e le strategie di ricerca delle informazioni in rete che ciascun utente adotta. Gli aspetti prima indicati hanno implicazioni dirette in termini di problemi che si pongono nella ricerca delle informazioni in Internet. Al crescere della dimensione della rete e dell’eterogeneità dei formati aumenta evidentemente la difficoltà di reperimento di una data informazione in rete. Il reperimento è inoltre più difficile data l’assenza di catalogazione dei contenuti, oltre al fatto che questi possono trovarsi a livelli diversi nella rete (ad es. entro pagine interne di un sito, o nel deep web). Anche nel caso in cui sia possibile reperire facilmente l’informazione, sorgono problemi relativamente alla qualità del contenuto trovato, sia per l’incertezza sul grado di aggiornamento di tale contenuto, sia per quanto riguarda le garanzie di affidabilità e reputazione di chi ha pubblicato tale contenuto. Infine gli utenti stessi possono trovare difficile l’esplicitazione del proprio fabbisogno di informazione, così come la sua traduzione nell’appropriata strategia o procedura di ricerca in rete anche per evitare di cadere nella trappola dell’information overload; non esistono del resto modalità o procedure standard o ottimali che possano essere apprese e usate: in questo caso conta anche molto l’esperienza (e il tempo a disposizione). Occupiamoci ora più specificatamente del problema di reperire informazioni su Internet. Quali sono gli strumenti a disposizione? Come si effettua una ricerca? Si tratta di un problema che interessa sia gli utenti stessi – ossia coloro che cercano contenuti – ma anche le fonti, ossia coloro che desiderano che altri reperiscano contenuti: si pensi ad esempio l’importanza che ha, per un’azienda, la visibilità in rete, ossia la possibilità che un proprio sito sia facilmente reperibile. Va detto innanzitutto che sono ormai moltissimi gli utenti che cercano informazione in rete, e che quasi sempre lo fanno in un modo “intuitivo”, e altrettanto spesso usando un motore di ricerca (o più specificatamente il più noto tra questi: Google). Questa modalità di ricerca, peraltro, non è sempre sufficientemente valida, anzi per alcuni tipi di ricerche si dimostra inefficace. Perché? Per rispondere alla domanda dobbiamo innanzitutto dire qualcosa di più su come funziona la ricerca di informazioni attraverso un motore. Va detto subito che le modalità di funzionamento (i cosiddetti “algoritmi” di ricerca) dei motori non sono di solito rese note (quantomeno non del tutto) e sono addirittura spesso oggetto di ipotesi e speculazioni. Tuttavia il modello iniziale o quantomeno quello che ha ispirato i primo motori di ricerca, ha origine in quel campo di studi che ha il nome di Information Retrieval. Con questo termine intendiamo i principali modelli di riferimento per la ricerca di informazione nei grandi database elettronici di tipo documentale, ossia contenenti testi e documentazione per lo più scritta. Un sistema di ricerca in tali archivi è essenzialmente basato su una procedura di “indicizzazione”, ossia la costruzione in anticipo di “indici” (ovvero “sintesi”) dei contenuti dei
3 diversi documenti, che vengono cioè preclassificati sulla base di parole chiave. Un modo tipico di indicizzare un testo è sulla base del conteggio delle “ricorrenze” ossia del numero di volte in cui ciascuna parola compare nel testo stesso ­ anche se sono possibili approcci anche diversi e ben più complessi. Tali indici sono poi usati per facilitare il reperimento del documento da parte dell’utente attraverso le parole chiave: in pratica, quando l’utente digita una parola, un sistema basato su tali modalità restituirebbe un elenco dei testi che contengono il maggior numero di volte quella parola. Riassumendo, secondo uno schema tipico del meccanismo dell’information retrieval, si ha innanzitutto un software che analizza i testi e li “classifica” (indicizza) sulla base di criteri quali la frequenza o ricorrenza con cui compaiono le parole. Viene quindi creato un database (in pratica, ua serie di tabelle) che memorizza questi indici. L’utente che sta cercando un determinato documento lancia una ricerca (“query”) inserendo le parole chiave da ricercare. Il software ricerca nel database indice (ossia nelle tabelle) il/i documento/i a cui corrisponde l’indice più elevato (quindi ad esempio come frequenza di comparsa delle parole chiave) e restituisce infine la risposta all’utente sotto forma di una lista di documenti in ordine di rilevanza. Come dicevamo, almeno nella loro forma originaria o “ideale”, i motori di ricerca sono stati concepiti sulla base dei classici approcci dell’information retrieval. Tuttavia tale approccio, se applicato “brutalmente” al contesto di Internet, presenta varie limitazioni, che ora approfondiremo. I motori di ricerca dispongono innanzitutto di un “generatore di indirizzi Web” che, con determinate logiche e cadenze, produce una lista di indirizzi entro i quali il motore ricercherà le pagine da esaminare. A intervalli predefiniti, un programma (denominato “spider”, oppure anche “robot” o “crawler”) effettua la visita (automatica) di tali siti e ne costruisce un’immagine “indicizzata”. Tale immagine potrà essere basata ad esempio su una formula che calcola le ricorrenze delle parole presenti nonché combinazioni di altri fattori (si veda ad es. l’algoritmo di ricerca proposto nel 1998 dai creatori di Google) che hanno l’obiettivo di calcolare un “indice di rilevanza” per ciascuna pagina rispetto a una possibile ricerca dell’utente. Costituito l’indice (che verrà aggiornato con cadenze prestabilite), alla richiesta dell’utente (che inserirà nell’apposita maschera le sue parole chiave preferite) il motore effettua una ricerca non sul web direttamente (operazione che sarebbe ovviamente troppo lunga) ma sul proprio database indicizzato, ossia sulle tabelle di indici delle pagine che il programma spider ha censito in precedenza. Ad esempio, se le pagine sono indicizzate sulla base della frequenza delle parole, il motore restituirebbe all’utente (nell’ordine di frequenza) l’elenco delle pagine web in cui la parola chiave dell’utente compariva più frequentemente quando il programma spider ha visitato tali siti (e, naturalmente, solo per le pagine effettivamente visitate che, come vedremo, non possono essere la totalità di Internet né del Web); oppure calcolerà l’importanza della pagina (ad es. il cosiddetto “page rank”, usando il termine di Google) secondo la formula specificatamente adottata. Questo meccanismo di information retrieval applicato al Web ha quindi alcune differenze rispetto all’information retrieval in un archivio elettronico delimitato, e anche alcuni limiti fondamentali. Innanzitutto, le tecniche dell’information retrieval quali quelle che abbiamo prima illustrato sono perfettamente adatte a un contesto informativo caratterizzato da documenti tra loro omogenei come formato (ad esempio solo testi), e come contenuto (ossia, le parole chiave hanno tipicamente significati o usi analoghi tra un documento e l’altro). Inoltre, il loro funzionamento efficiente richiede generalmente che il database documentale sia ordinato e controllato ­ ossia l’immissione di un nuovo documento sia regolamentata secondo procedure standard, il che consente una catalogazione ordinata e un’indicizzazione di tutti i testi introdotti – nonché di dimensione nota . L’indicizzazione dei testi tramite la semplice analisi delle ricorrenze appare un modo non sempre efficace per l’analisi dei siti, considerata la dimensione della rete, l’elevato dinamismo, l’eterogeneità delle risorse informative, e la mancanza di una catalogazione. L’applicazione dell’indicizzazione basata sulle ricorrenze risulta molto meno affidabile in un contesto come Internet, dove i contenuti hanno formato o contenuto ben poco omogeneo: una stessa parola chiave può fornire, come è noto, i risultati più disparati quando la parola stessa ha significati radicalmente diversi in contesti differenti. Il conteggio delle ricorrenze, infatti, non fornisce necessariamente un
4 buon parametro per misurare la “rilevanza” di un sito rispetto a un altro con riferimento a un dato argomento o parola. Tuttavia, non vi sono nemmeno certezze che algoritmi più complessi (come quello proposto dai creatori di Google) siano efficaci per rispondere alle domande di un qualsiasi generico utente: per nessuna delle tecniche proposte si è riusciti a dimostrare una “validità” in termini assoluti (ossia l’efficacia rispetto alle esigenze di ricerca di tutti i possibili utenti). Vi sono infine problemi di vario tipo nella gestione delle diverse lingue. In secondo luogo, nessun motore di ricerca ha (né, presumibilmemte, potrebbe avere) una copertura totale di tutte le informazioni presenti nella rete, e neppure del Web. Secondo alcuni studi anche qualche anno fa, quando la dimensione di Internet era assai inferiore a quella attuale, i migliori motori non riuscivano a coprire oltre il 40% delle pagine Web stimate; oggi alcune stime indicano addirittura percentuali più piccole. Il che significa che in ogni caso gran parte del Web non risultava coperto. Per non parlare poi del “deep Web”, ossia ad esempio di tutti i documenti contenuti all’interno di database e banche dati e che non sono direttamente indicizzabili dai motori (si pensi per es. alle pagine dinamiche generate dall’interrogazione ad un elenco telefonico ondine, sicuramente non censite dai motori). Per i motori risulta poi difficoltosa la gestione dei “link alle sottopagine” più interne che tuttavia possono essere interessanti come contenuto. Infine vanno ricordate le difficoltà dell’utente ­ sia quello inesperto, ma talvolta anche lo specialista. L’utente non sempre è in grado di tradurre adeguatamente le proprie interrogazioni o fabbisogni di ricerca in parole chiave adeguate, e spesso le ricerche risultano infruttuose o complicate per questa ragione. Fra l’altro, come dicevamo, il motore inoltre non è in grado di evidenziare le differenze semantiche di omonimie (parole che si scrivono allo stesso modo ma hanno significati diversi) o valutare la differenza precisa di termini che in parte, o in specifici contesti, usati come sinonimi, quindi l’onere dell’analisi e la scelta delle combinazioni appropriate di parole chiave ricade interamente sull’utente. Non è detto fra l’altro che sia sufficiente inserire nel campo di ricerca più termini per risolvere tali problemi: la combinazione di più parole chiave a volte finisce per portare la ricerca fuori strada anziché facilitarla. Ancora, la “fotografia” del Web (ossia l’indicizzazione) di cui un motore di ricerca dispone in un certo istante non è detto che sia la più aggiornata in assoluto. Un fenomeno di esperienza comune è che, durante la ricerca con una certa parola, il motore restituisca l’indirizzo di pagine che, quando si tenta di visitarle, risultano non più accessibili o di contenuto radicalmente modificato rispetto a quello indicizzato dal motore stesso. Ciò significa che quelle date pagine non erano state più censite dal motore, che ne memorizza dunque un indice non più aggiornato e dunque non affidabile. Da ultimo, va ricordato che le tendenze dei motori di ricerca sembrano (almeno in alcuni casi evidenti) quelle di fornire posizioni privilegiate alle pagine “sponsorizzate”, il che evidentemente rende meno trasparente il processo di retrieval. Oltretutto, dato che i motori di ricerca non danno assolutamente alcuna indicazione circa l’autorevolezza o affidabilità di una fonte (valutazione che è totalmente di responsabilità di chi sta effettuando la ricerca – cfr. più avanti), la presenza di possibili sponsorizzazioni (non sempre evidenti all’utente) può ulteriormente confondere le idee. Questi dunque i limiti attuali dei motori di ricerca. Allo stato, nonostante gli immensi sforzi in tale campo, non sono ancora state messe a punto tecnologie davvero efficaci per espandere le funzionalità degli strumenti di ricerca in Internet. Le principali direzioni di ricerca riguardano: ­gli strumenti per analizzare il linguaggio naturale, in modo da superare i limiti delle classiche ricerche con parole chiave, e interpretare invece richieste informative anche complesse e articolate dell’utente lanciando ricerche in rete più efficaci. ­gli agenti di ricerca intelligenti, che aiutano l’utente nel reperimento e nella gestione delle risorse informative in Internet, automatizzando compiti routinari (svolti anche senza l’intervento diretto dell’utente – ad es. la verifica dell’aggiornamento di una data pagina web), oppure apprendendo e poi riproducendo alcuni “modelli comportamentali” tipici del profilo di un dato utente (ad es. tenendo traccia dei suoi “argomenti di ricerca” preferiti) ­la ristrutturazione del Web in modo che il contenuto di ogni pagina non sia semplicemente un testo, ma un testo arricchito di indicazioni sulla sua struttura e sul contenuto di ogni parte (v. il
5 progetto del cosiddetto “semantic Web”); questo dovrebbe facilitare la definizione di motori di ricerca molto più efficaci. Al momento tuttavia queste soluzioni “tecnologiche” al problema della ricerca in rete non sembrano però risolutive. L’unica strada che al momento sembra essere stata intrapresa dalle società che gestiscono i motori di ricerca è quella di estendere il proprio campo di applicazione. Ad esempio, Google ha inserito sezioni tematiche (ad esempio ricerca in mappe, immagini, news o altro) che possono facilitare l’utente nel caso di ricerche specifiche. Si tratta certamente di strumenti utilissimi, che tuttavia richiamano altri problemi come ad es. la classificazione dei contenuti o l’integrazione tra fonti diverse. In definitiva, l’ambiente di Internet se pure informativamente ricchissimo risulta particolarmente difficile da trattare, né esistono metodi o strumenti “ottimi” per la ricerca di informazione. I motori di ricerca restano lo strumento principale per la ricerca in rete e indubbiamente costituiscono un ottimo strumento, ma non sono l’unico né necessariamente il più efficace per reperire i contenuti informativi. Oltretutto non esiste un solo motore né sono tutti uguali. Ciò lascia quindi spazio a una pluralità di strumenti e di operatori che possono offrire “servizi di intermediazione informativa”, ossia offrire un qualche tipo di “assistenza” nel facilitare il reperimento delle informazioni da parte degli utenti, o migliorare la visibilità delle fonti e delle risorse. Il ruolo di tali “intermediari informativi” è quello di facilitare l’interazione e l’incontro tra la domanda e l’offerta di informazione in Internet, da un lato facilitando il reperimento da parte degli utenti, dall’altro rendendo maggiormente visibili le fonti e le risorse informative disponibili in rete. Dato che l’operazione di reperimento di informazione in Internet può avere meccanismi e gradi di efficienza diversi a seconda della situazione (ossia in relazione al tipo di utenti, ai loro fabbisogni informativi, alle fonti e risorse informative, al mezzo utilizzato), e non esistendo una soluzione unica “massimamente efficiente” per ogni specifico problema informativo, gli intermediari informativi possono anche rappresentare operatori in competizione tra loro e in grado di offrire soluzioni più o meno valide o efficienti a seconda della situazione e del contesto di applicazione. Diventa possibile la nascita di un “business” dei servizi di ricerca in rete. Si assiste in effetti a un proliferare di servizi di ricerca e di intermediazione informativa assai differenti tra loro, in relazione ad esempio al target di utenza, alla copertura della rete, alle prestazioni (in termini ad es. di velocità, piuttosto che di precisione, di affidabilità, ecc.), al costo di tale intermediazione informativa e alle modalità di pagamento di tale servizio (dall’erogazione gratuita o “sponsorizzata” ­ come del caso dei motori, ai servizi in abbonamento, ecc.). Si assiste anche a fenomeni di alleanza e “concatenamento” tra tali intermediari, ossia a vere e proprie catene del valore nell’intermediazione informativa nelle quali ciascun operatore svolge particolari porzioni o funzioni del servizio complessivo fornito agli utenti. Si possono fornire vari esempi di operatori e servizi informativi di natura molto differente tra loro, ciascuno specializzato nella fornitura di informazioni specifiche via Internet, nella gestione di risorse/fonti specifiche, nell’utilizzo di tecnologie o metodi di ricerca diversi, ecc. Questi strumenti hanno evidentemente prestazioni diverse relativamente a vari possibili aspetti, nonché utilizzi preferenziali o viceversa limiti. Ciò è importante nel momento in cui si imposta una ricerca in rete. In effetti un “buon” procedimento di ricerca in rete, quantomeno su argomenti complessi e non di facile specificazione, potrebbe richiede una riflessione preliminare su alcuni elementi chiave: ­ cosa si sta cercando veramente e perché (il “fabbisogno” di ricerca e la sua formulazione) ­ quali strumenti appaiono più idonei per la ricerca ­ quali parole chiave sono appropriate (anche in relazione allo strumento usato, ad es. motori piuttosto che pagine gialle o banche dati) ­ quali metodi si devono utilizzare per valutare la qualità della risposta (ossia se risponde efficacemente al fabbisogno) e l’affidabilità della fonte e della risposta stessa
6 In generale in relazione allo specifico fabbisogno informativo – ma anche alle capacità dell’utente e ad altri vincoli ad es. temporali o di risorse – gli utenti Internet hanno diversi vari comportamenti tipici nella ricerca di informazione. Alcuni studi hanno tentato di schematizzare e classificare le principali procedure generalmente utilizzate. Due sono in particolare quelle che risultano le più usate. La prima possiamo definirla la “ricerca tramite navigazione”, una modalità di tipo abbastanza immediato e “intuitivo” in cui l’utente, a partire da un determinato obiettivo, parte subito senza particolari riflessioni preliminari cercando con una o più parole chiave immesse in un motore di ricerca e spesso ricavate direttamente dalla domanda di ricerca, oppure accede a un servizio (portale, banca dati, ecc.) nel quale presume di trovare il risultato. Le pagine restituite e il loro contenuto vengono, più o meno rapidamente, analizzati e valutati e se sono giudicati adeguati il processo di ricerca termina, altrimenti si torna indietro modificando ad es. le parole chiave utilizzate. Tutti gli utenti utilizzano questo approccio e spesso molto frequentemente, anche se per una parte consistente è in pratica l’unico usato, il che significa ad es. che tutto dipende da quanto “bravi” (o fortunati) si è nell’azzeccare subito le parole chiave, e soprattutto dal fatto che il contenuto cognitivo ricercato si presenti nella forma adatta per essere censito dal motore o servizio di ricerca. Naturalmente può essere benissimo che il risultato ottenuto sia davvero adeguato e quindi “dia la risposta cercata”. Vi sono anche casi in cui l’obiettivo di ricerca (o altre variabili critiche come il tempo o i mezzi a disposizione) rendono questo approccio l’unico adatto (per cercare un numero di telefono, ad es., si può pensare di andare direttamente nelle pagine bianche; per l’orario di un treno nel sito delle ferrovie, ecc.). Però nel caso di ricerche complesse, dalla formulazione iniziale ambigua o incompleta, o scarsamente riflettuta, o ancora nel caso che l’utente stia cercando in un contesto cognitivo poco conosciuto o non disponga di elementi adeguati alla verifica della qualità della risposta, la questione diventa molto più problematica e questo approccio di ricerca potrebbe risultare troppo semplice. Quindi in questo caso, ferma restando la tecnologia utilizzabile, quel che deve cambiare è il modo di agire dell’utente. Un modo più sofisticato di procedere, e che gli utenti cominciano ad apprendere e ad utilizzare più o meno consapevolmente mano a mano che diventano “frequentatori più abituali” di Internet, è una modalità più dinamica e interattiva rispetto alla precedente, e che potremmo chiamare, usando il termine proposto da alcuni autori, il “berry picking”: ossia andare a prendere frutti di bosco in montagna (prima si trova una fragolina, poi più in là c’è il mirtillo, poi si ritorna alla fragola, poi si trova il lampone, ecc.). Specialmente nel caso di ricerche complesse dalla formulazione vaga e ambigua o in un campo che non si conosce, si inizia cercando con un motore (o con altro strumento) e usando parole chiave “immediate”, ricavate da una prima formulazione generica della domanda di ricerca. La valutazione dei risultati ottenuti è poi più riflettuta rispetto all’approccio precedente, può comportare navigazioni in sottopagine o link, e quest’analisi può contribuire anche a re­impostare l’approccio di ricerca, addirittura a meglio formulare e chiarire lo stesso obiettivo di ricerca, o addirittura a modificarlo. In altri termini, l’utente acquisisce pian piano una maggiore conoscenza del contesto cognitivo dove sta effettuando la ricerca, nonché di cosa Internet offre a riguardo, e ciò gli consente di chiarirsi maggiormente le idee anche su cosa stava realmente cercando. Evidentemente questo modo di procedere richiede più tempo, e anche una maggiore conoscenza del mezzo Internet. Un terzo possibile modo è quello che chiameremo la “ricerca analitica”. Qui l’utente, magari prima ancora di accedere a Internet, cerca innanzitutto di chiarirsi meglio le idee: cosa devo cercare? come è meglio formulare il mio obiettivo di ricerca? qual è lo strumento migliore da cui partire? quali sono le parole chiave più adeguate? Successivamente inizia con una ricerca i cui risultati potranno peraltro portare a riformulare la strategia stessa di ricerca o l’obiettivo/quesito. Si tratta di un approccio sofisticato e che appare appropriato nel caso di ricerche particolarmente complesse o per cui si richiede elevata affidabilità, o se si hanno mezzi (tempo e risorse) a disposizione, e così via. Alcune indagini mostrano che pochi utenti (e non sempre) usano questo approccio, che del resto non in tutti i casi appare appropriato.
7 Da cosa dipende allora la bontà di un approccio rispetto ad un altro? Visto in chiave di trasferimento di conoscenza, il problema per l’utente è legato ad aspetti quali: ­ la sua conoscenza precedente del dominio cognitivo e del mezzo (paradossalmente, meno si sa di un argomento e più è utile la ricerca, ma più difficile essa risulterà) ­ la capacità di “codificare” il contenuto cognitivo, insito nell’obiettivo di ricerca, in un formato (ossia parole chiave, trattate dalla macchina come “dati elementari”) adeguato a essere immesso in uno strumento di ricerca automatico ­ la capacità di comprendere come le fonti potrebbero aver codificato e reso disponibile in Internet il contenuto cognitivo che viene ricercato (che termini avranno presumibilmente usato, quali dati indicato, in che formati, ecc.) ­ la capacità di comprendere come tali contenuti cognitivi (sotto forma di testi, dati numerici, immagini, ecc.) sono poi manipolati, classificati e presentati all’interno degli strumenti di ricerca o dai servizi informativi in Internet Il primo punto ci ricorda fra l’altro un elemento chiave per qualsiasi ricerca di informazione – su Internet e no: la cosiddetta “conoscenza pre­esitente” (previous knowledge): quanto più un utente conosce un certo dominio cognitivo nonché il funzionamento degli strumenti di ricerca appropriati, tanto più sarà facilitato nella ricerca. Infatti, saprà scegliere parole chiave e motori, nonché valutare i risultati in modo assai più efficace (questo ci ricorda il paradosso secondo il quale il processo di ricerca di informazioni dà i risultati migliori per coloro che sanno già la risposta – ossia hanno meno bisogno di ricercarla!). Utile per impostare la ricerca è anche sapere che esistono tipi di obiettivi di ricerca diversi, che richiederanno strategie differenti. E’ stata proposta una classificazione delle ricerche su Internet in tre tipologie: la ricerca FATTUALE (di un dato preciso, di una risposta precisa – ad es. il numero di telefono di un negozio, l’orario di un treno, ecc.), la ricerca di una FONTE (ossia del luogo – in rete o anche no ­ dove si può poi reperire all’occorrenza una data informazione: ad es. dove posso trovare il nominativo di un esperto in una determinata disciplina medica, oppure quale studioso ha pubblicato un certo studio su un certo argomento, quale articolo di giornale cita un certo fatto, ecc.), infine la ricerca ESAUSTIVA (la più complessa, che serve a dare una risposta maggiormente completa e motivata a un perché, a un quesito articolato, ecc. ­ ad es. cercare come si deve realizzare una certa procedura, prendere informazioni su un certo fenomeno, ecc.). E’ presumibile pensare che ciascun tipo di domanda di ricerca richieda, evidentemente, un diverso approccio alla ricerca stessa. Dunque, il processo di elaborazione cognitiva alla base di una ricerca in Internet è a carico dell’utente, che se deve appunto prendere carico. Un aspetto particolarmente delicato (si tratta per la verità di un problema ricorrente nella ricerca di informazione anche non in Internet, ma che in Internet assume connotazioni particolari) è la valutazione della qualità dei risultati, che ci riporta fra l’altro a uno degli aspetti cruciali: l’affidabilità delle fonti e dei loro contenuti. In linea di principio, la qualità della risposta reperita da Internet dipende grandemente dall’affidabilità delle fonti. Come può l’utente valutare l’affidabilità della risposta reperita e/o della fonte che tale contenuto ha immesso in Internet? Alcuni studiosi (v. ad es. l’approccio CARS o i lavori di Kapoun) hanno anche tentato di mettere a punto criteri al fine di valutare, esaminando una pagina Web, la credibilità percepibile della fonte, l’accuratezza del contenuto, la ragionevolezza con cui esso è presentato, il supporto fornito a chi lo consulta (ad es. le fonti indirette da cui i dati sono riportati, ecc.). Tutti questi criteri sono utili all’utente che desideri, una volta reperito un contenuto, giudicarne la qualità. Un’alternativa potrebbe essere quella di disporre in anticipo di metodi di “selezione delle fonti” e dei contenuti; in altri termini, se fosse possibile applicare un valido processo di valutazione in anticipo della credibilità e affidabilità delle fonti, ciò potrebbe fornire agli utenti un’indicazione utilissima per le proprie ricerche. Analogamente, la cosa sarebbe utile a chi desidera pubblicare il proprio contenuto in Internet. Oggi quali modalità si possono individuare per la valutazione in anticipo delle fonti? Le prime tre di seguito indicate sono sostanziali trasferimenti al contesto di Internet di modalità usate anche nel
8 mondo “non virtuale”. Con “certificazione” intentiamo che la fonte (e il relativo sito) verrebbe “dichiarata affidabile” (ad es. da una terza parte, da un ente certificatore, ecc.). Oggi si tratta di un meccanismo che in Internet non trova sostanziali applicazioni, non esistendo ancora alcun “ente certificatore” dei siti Internet; possiamo in pratica parlare solo di fonti (e siti) “autocertificate” riferendoci alle organizzazioni e istituzioni che, per loro natura, sono normalmente ritenute fornire informazioni “ufficiali” o affidabili quantomeno per gli argomenti di loro competenza: ad es. fonti ministeriali, enti pubblici, università, ecc. Con “reputazione” intendiamo il meccanismo per cui una fonte e un sito si “guadagnano” fama di credibilità grazie alle precedenti esperienze degli utenti che vengono condivise, di solito, con un “passaparola”. Si tratta spesso di un meccanismo potente che però richiede tempo per mostrare la sua efficacia; inoltre non sempre la reputazione di un sito è del tutto fondata su elementi qualitativi oggettivi, dato che si costruisce sull’accumulazione delle diverse percezioni soggettive dei vari utenti. Il meccanismo del “peer review” (che potremmo tradurre come “giudizio dei pari”) è una derivazione della tecnica tipicamente usata nella valutazione delle pubblicazioni scientifiche (riviste internazionali specializzate, ecc.). Il contenuto proposto viene valutato dagli utilizzatori che hanno la stessa competenza professionale di chi lo ha pubblicato: le valutazioni vengono rese disponibili al resto degli utenti, che possono così trarre le proprie conclusioni e seguire l’eventuale dibattito tra esperti sul contenuto presentato nel sito. Nel Web, esempi possono essere le comunità virtuali che, tramite forum on­line o simili applicazioni, si scambiano commenti e giudizi sul contenuto presentato in Internet da altri; oggi uno degli esempi più significativi è quello dei contenuti pubblicati dagli sviluppatori dei software open source; altri esempi, sempre più diffusi, riguardano le riviste scientifiche “open” presenti su formato online. Si tratta in definitiva di un metodo particolare riservato a contesti particolari (tipicamente comunità di studiosi e ricercatori) in cui esso pare funzionare, se non altro per tradizione consolidata; oltretutto, e a differenza delle applicazioni consolidate del “peer­review” nelle comunità scientifiche tradizionali (dove questo meccanismo è abbondantemente noto e sperimentato) nel contesto di Internet c’è il problema di chiarire chi possa essere reputato un esperto in grado di dare giudizi significativi e validi per l’intera comunità. Un ultimo meccanismo di “validazione” del contenuto è praticamente esclusivo del mondo Internet: le comunità costruite sulla logica “wiki” (si veda in particolare il progetto Wikipedia). La logica sottostante differisce da quella del “peer review” in quanto non c’è selezione (di fatto o per regola interna) dei “giudici”: chiunque, indipendentemente dal proprio ruolo e dalle proprie competenze riconosciute “sul campo”, può intervenire nel dibattito intorno al contenuto presentato da qualcuno su un sito Wiki, e perfino modificarlo. L’idea è che questo approccio “aperto e democratico” alla fine possa determinare un “consenso condiviso e pubblico” sui materiali pubblicati nel sito, il che viene assunto come garanzia di qualità. Si tratta di un sistema che, oltre che presentare notevoli incertezze con riferimento a coloro che partecipano alla pubblicazione o recensione dei contenuti, è applicato solo a poche fonti nel Web (se pure sempre più popolari). Abbiamo visto il problema della ricerca in rete focalizzando l’attenzione dell’utente: tuttavia un problema speculare si pone per le fonti di informazione: come rendersi visibile in Internet? Il problema è particolarmente delicato anche per tutte le imprese che intendono fare qualche attività di commercio elettronico su Internet (anche se si trattasse di sola pubblicità o presenza online). Quali mezzi ha l’utente per rendersi maggiormente visibili su Internet? Vi sono varie azioni che si possono svolgere: una è quella di sfruttare la conoscenza del funzionamento dei motori di ricerca: progettando il proprio sito o piazzandolo nel Web in modo appropriato si può sperare di venire indicizzati in modo appropriato rispetto alle parole chiave che si ritiene verranno immesse dai propri utenti (si tratta qui delle cosiddette tecniche di “search engine optimization” ossia “posizionamento nei motori di ricerca). La questione non è banale e coinvolge varie questioni. In sostanza, si deve progettare il contenuto della pagina (parole dei testi, nome dell’indirizzo, titoli e
9 keyword, ecc.) in un modo appropriato così da intercettare le possibili parole chiave che l’utente target (ossia quello che si desidera che trovi il sito) tipicamente userà nelle sue ricerche. La questione non è banale in quanto implica anche adattare le parole del proprio sito al prevedibile comportamento dell’utente a cui si è interessati, e in modo da poter discriminare efficacemente rispetto a potenziali siti concorrenti (a titolo di esempio, se si ha un’azienda che vende capi di abbigliamento, le parole chiave possono includere “abiti” “vestiti” “moda” “abbigliamento” e altro ancora, ma evidentemente queste sono da un lato comuni a molte aziende concorrenti, e dall’altro possono essere usate da utenti diversi con logiche diverse). In alcuni casi, quando il motore di ricerca lo prevede, si può pagare per ottenere una migliore classificazione nei risultati di una ricerca rispetto a determinate parole chiave. Si può anche pagare inserzioni pubblicitarie o link in siti importanti (i cosiddetti “collettori di traffico” – ossia i siti maggiormente visitati dagli utenti: directory, quotidiani online, grandi portali informativi, ecc.). Si può anche adottare la pratica dei link incrociati con siti partner. Quest’ultimo aspetto richiama un elemento importante. Un prezioso studio di Broder e altri sulla struttura reticolare delle pagine Web intese come rete di nodi (i siti) collegati da archi (i link) ha permesso di dimostrare la forte asimmetria tra i tipi di nodi in relazione all’esistenza di link che entrano o escono da essi. In particolare, esiste un’area forte di siti molto connessi reciprocamente tra di loro, ma anche siti che hanno prevalenza di link uscenti e pochi o nulli link entranti, e viceversa siti con molti link entranti e pochi uscenti; infine ci sono siti (singoli o gruppi) tendenzialmente isolati dal resto. La consapevolezza di questa struttura di rete (che richiama fra l’altro l’asimmetria tra nodi nelle cosiddette reti scale­free) ha implicazioni importanti per chi vuole piazzare il proprio sito al meglio: ­ innanzitutto, avere un sito con link in ingresso facilita il reperimento da parte degli utenti per due motivi: primo perché è più probabile che un utente ci arrivi per navigazioni successive, secondo perché i motori di ricerca scelgono i siti da censire (anche) sulla base dei link entranti, e inoltre algoritmi come il “page rank” di Google danno maggior peso ai siti con molti link entranti ­ in secondo luogo, è meglio fare il possibile per essere collegati con un link entrate proveniente da un grande sito generatore di traffico (ossia i cosiddetti nodi “hub” di una rete scale­free), dal quale è più probabile che un utente provenga
10