i motori di ricerca
Transcript
i motori di ricerca
Pagine web (struttura html) Cercare documenti Web Motori di Ricerca Angela Scaringella – Scienze della Comunicazione I MOTORI DI RICERCA Sulla rete Web vi sono strumenti specifici chiamati motori di ricerca (research engines) per la ricerca di siti e documenti su argomenti specifici o con particolare parole chiave. Essi permettono ricerche di indirizzi elettronici di persone, server WWW, informazioni bibliografiche e su articoli di riviste, archivi di software e altro. La ricerca viene effettuata fornendo una o più parole chiave relative all’oggetto cercato, digitando un certo numero di parole in un apposito campo (form) e dando poi il comando che avvia la ricerca. Angela Scaringella – Scienze della Comunicazione Motori di ricerca Un “motore di ricerca”, o spider, è un sito con grandi capacità di connessione, immagazzinamento e calcolo Il motore di ricerca si basa su diversi componenti: un programma che interroga periodicamente un “campo d’azione” (ovvero, un insieme di documenti “radice” documenti da questi collegati) per scaricarne le pagine e catalogarle · Un database delle pagine catalogate · Una interfaccia di interrogazione Angela Scaringella – Scienze della Comunicazione Quando qualcuno si collega al motore lo “interroga” per trovare tutti i documenti che contengono certe parole Campo d’azione dei motori di ricerca: · Sul proprio sistema operativo o per un singolo disco o per l’intero file system · Su tutti i dischi di una rete privata (intranet) · Su Internet Angela Scaringella – Scienze della Comunicazione Come si scrivono le frasi di interrogazione? 1. Occorre identificare i concetti più importanti in grado di riassumere i contenuti della ricerca. 2. Occorre identificare i termini di ricerca (parole chiave) che meglio riassumono tali concetti. 3. Occorre eventualmente trovare una serie di sinonimi, ovvero di parole in qualche modo correlate con i termini precedentemente individuati Angela Scaringella – Scienze della Comunicazione Il modello booleano (ricerca avanzata) • Rappresentazione dei documenti richiesti è un insieme di termini che ne rappresentano il contenuto. • Interrogazioni – Combinazioni booleane di termini combinati tra loro mediante gli operatori booleani AND, OR, NOT, XOR e NEAR •Criterio di corrispondenza –AND i termini sono entrambi presenti –OR almeno uno dei due termini è presente –NOT il termine non è presente –XOR reperisce i documenti che contengono un termine o l'altro, ma non entrambi. –NEAR reperisce i documenti che contengono un termine e l'altro, che devono apparire a una distanza minore di 10 parole. Angela Scaringella – Scienze della Comunicazione Tabelle di verità AND V F OR V F NOT V V F V V V V F F F F F V F F V Angela Scaringella – Scienze della Comunicazione ESEMPIO (sociologia AND comunicazione) Documenti che contengono “sociologia” e “comunicazione” (filosofia OR storia) Documenti che contengono “filosofia” o “storia” NOT (sociologia AND comunicazione) Documenti che non contengono “comunicazione” insieme “sociologia” e ((filosofia OR storia) NOT (sociologia AND comunicazione)) Documenti che contengono “filosofia” o “storia”, ma non “sociologia”e “comunicazione” (filosofia XOR storia) Documenti che contengono “filosofia” o “storia”, ma non Angela Scaringella – Scienze della Comunicazione entrambi. I principali motori di ricerca internazionali sono: • • • • Altavista http://www.altavista.digital.com Google http://www.google.com Infoseec http://www.infoseec.com Lycos http://www.lycos.com I motori di ricerca italiani più usati sono: • Arianna http://www.arianna.it che dà anche la possibilità di collegarsi ai principali motori internazionali • Virgilio http://www.virgilio.it • Google http://www.google.it Angela Scaringella – Scienze della Comunicazione Altavista Come in quasi tutti i motori di ricerca, se si digita una serie di parole, si ricercano i documenti che contengono almeno una di esse. Una successione di parole messe tra virgolette indica che si cercano i documenti che contengono queste parole in successione. Si usa il simbolo + prima di una parola o di una successione di parole tra virgolette per indicare che quella parola o successione di parole deve apparire comunque nei documenti. Analogamente si usa il simbolo – per escludere la parola o la successione di parole che non devono apparire nei documenti. Angela Scaringella – Scienze della Comunicazione Altavista Se si vuole eseguire una ricerca più raffinata si seleziona “advanced research” (ricerca avanzata) che permette di utilizzare gli operatori booleani (AND, OR, NOT) e inoltre di scegliere i criteri di ordinamento dei risultati. L’ordinamento (page rank) dei documenti viene fatto in base alla frequenza con cui le parole appaiono nei documenti e tenendo anche conto se esse appaiono anche nei titoli dei documenti (tag title). Angela Scaringella – Scienze della Comunicazione Google Oltre alle varie modalità logiche viste in precedenza, con Google si possono fare selezioni sulla lingua, sulla data e le parole che appaiono nel titolo. Una caratteristica importante di Google è che ordina le pagine trovate non solo in base alla frequenza, in cui i termini appaiono, ma anche in base all’autorevolezza che viene misurata dal numero e dall’autorevolezza dei “link” che puntano al documento. In questo caso si fa uso per la valutazione della rilevanza dei documenti trovati di una caratteristica degli ipertesti cioè della possibilità di richiamare all’interno di un documento altri documenti appunto con l’utilizzazione dei link. Angela Scaringella – Scienze della Comunicazione Google La rete per questa caratteristica assume la forma di un grafo diretto cioè un insieme di vertici che corrispondono alle pagine Web collegati da frecce che corrispondono ai link che da un documento rimandano a un altro. E’ ragionevole che una pagina che viene puntata con link da molte altre pagine sia autorevole e ancora di più se le pagine che la puntano sono a loro volta pagine autorevoli. Si definisce l’algoritmo del page rank per valutare numericamente l’autorevolezza di una pagina Web. L’autorevolezza di una pagina Web viene trasmessa alle pagine Web a cui puntano i suoi link dividendola in parti uguali per il numero dei link che da essa partono. Angela Scaringella – Scienze della Comunicazione Google Es: autorevolezza = 40, da questa partono 4 link che attribuiscono autorevolezza 10 alle quattro pagine a cui è linkata. 10 10 40 10 10 Google http://www.google.it Angela Scaringella – Scienze della Comunicazione Google Altra caratteristica di questo motore di ricerca è la possibilità di accedere a pagine non più presenti sulla rete grazie al comando copia cache presente sul lato destro dei risultati ottenuti dopo una ricerca. E’ così possibile accedere a pagine non più consultabili. http://www.google.it/ Angela Scaringella – Scienze della Comunicazione MOTORI di ricerca ALLA SAPIENZA Angela Scaringella – Scienze della Comunicazione Il metamotore di Ricerca MetaBIDS Con un solo “clic” l’utente remoto può inoltrare la sua richiesta a banche dati, archivi di periodici elettronici, cataloghi delle Biblioteche di tutto il mondo. MetaBIDS Angela Scaringella – Scienze della Comunicazione Altre risorse dell’Università “La Sapienza” La Biblioteca Italiana I testi sono codificati in XML, sono in edizione integrale e si fondano sulle più autorevoli edizioni di riferimento, sono scaricabili gratuitamente in diversi formati e interrogabili attraverso le funzioni di “lettura del testo”e di “ricerca avanzata”. Il sistema produce dinamicamente una versione HTML del documento XML e un indice dei contenuti per ciascun testo , consente di effettuare ricerche full-text e ricerche contestuali e di creare concordanze dinamiche con collegamenti ipertestuali al testo. Angela Scaringella – Scienze della Comunicazione Altre risorse dell’Università “La Sapienza” Una risorsa per le scienze giuridiche Partecipano a questo portale 11 Università italiane, la Biblioteca della Camera dei deputati, della Presidenza del Consiglio dei Ministri e l’Istituto di Teoria e Tecnica dell’Informazione Giuridica (ITTIG di Firenze) e il CIDE, Centro Nazionale di Informazione e Documentazione Europea. E’ il più grande archivio italiano on-line di normativa ad accesso pubblico, ad accesso completamente gratuito sino a 5 documenti al giorno. Angela Scaringella – Scienze della Comunicazione Altre risorse dell’Università “La Sapienza” BigBang Si tratta di un portale per la cultura anglosassone. Offre corsi di lingua e un approccio a Internet, con centinaia di siti, biblioteche umanistiche e scientifiche e collegamenti radio e televisivi tutti in inglese, tutti gratuiti e usufruibili anche da casa con una normale connessione telefonica. I testi della letteratura Angela Scaringella – Scienze della Comunicazione Web semantico (struttura xml) Schema di classificazione – Ontologie Questa tipo di classificazione si basa sul contenuto (ontologie). Un esempio è la classificazione decimale di Dewey, usata in ambito bibliotecario. 1 Idrologia e Idrografia 10 1001 Idrografia 100102 Correnti di acque 1002 1001 10010202 Cascate 10010204 Rapide 100102 100105 100203 100105 Laghi 10010504 Lagune 1002 Idrologia 10010202 10010204 10010504 1001020301 100203 Crescita dei fiumi 10020301 Metodi di stima delle piene Angela Scaringella – Scienze della Comunicazione