i motori di ricerca

Transcript

i motori di ricerca
Pagine web (struttura html)
Cercare documenti Web
Motori di Ricerca
Angela Scaringella – Scienze della Comunicazione
I MOTORI DI RICERCA
Sulla rete Web vi sono strumenti specifici chiamati motori di
ricerca (research engines) per la ricerca di siti e documenti su
argomenti specifici o con particolare parole chiave.
Essi permettono ricerche di indirizzi elettronici di persone, server
WWW, informazioni bibliografiche e su articoli di riviste, archivi
di software e altro.
La ricerca viene effettuata fornendo una o più parole chiave
relative all’oggetto cercato, digitando un certo numero di parole in
un apposito campo (form) e dando poi il comando che avvia la
ricerca. Angela Scaringella – Scienze della Comunicazione
Motori di ricerca
Un “motore di ricerca”, o spider, è un sito con grandi capacità
di connessione, immagazzinamento e calcolo
Il motore di ricerca si basa su diversi componenti:
 un programma che interroga periodicamente un “campo
d’azione” (ovvero, un insieme di documenti “radice”
documenti da questi collegati) per scaricarne le pagine e
catalogarle
· Un database delle pagine catalogate
· Una interfaccia di interrogazione
Angela Scaringella – Scienze della Comunicazione
Quando qualcuno si collega al motore lo “interroga” per
trovare tutti i documenti che contengono certe parole
Campo d’azione dei motori di ricerca:
· Sul proprio sistema operativo
o per un singolo disco
o per l’intero file system
· Su tutti i dischi di una rete privata (intranet)
· Su Internet
Angela Scaringella – Scienze della Comunicazione
Come si scrivono le frasi di interrogazione?
1. Occorre identificare i concetti più importanti in grado di
riassumere i contenuti della ricerca.
2. Occorre identificare i termini di ricerca (parole chiave) che
meglio riassumono tali concetti.
3. Occorre eventualmente trovare una serie di sinonimi, ovvero di
parole in qualche modo correlate con i termini precedentemente
individuati
Angela Scaringella – Scienze della Comunicazione
Il modello booleano (ricerca avanzata)
• Rappresentazione dei documenti richiesti è un insieme di termini
che ne rappresentano il contenuto.
• Interrogazioni
– Combinazioni booleane di termini combinati tra loro mediante
gli operatori booleani AND, OR, NOT, XOR e NEAR
•Criterio di corrispondenza
–AND i termini sono entrambi presenti
–OR almeno uno dei due termini è presente
–NOT il termine non è presente
–XOR reperisce i documenti che contengono un termine o
l'altro, ma non entrambi.
–NEAR reperisce i documenti che contengono un termine e
l'altro, che devono apparire a una distanza minore di 10 parole.
Angela Scaringella – Scienze della Comunicazione
Tabelle di verità
AND
V
F
OR
V
F
NOT
V
V
F
V
V
V
V
F
F
F
F
F
V
F
F
V
Angela Scaringella – Scienze della Comunicazione
ESEMPIO
 (sociologia AND comunicazione)
 Documenti che contengono “sociologia” e “comunicazione”
 (filosofia OR storia)
 Documenti che contengono “filosofia” o “storia”
 NOT (sociologia AND comunicazione)
 Documenti
che
non
contengono
“comunicazione” insieme
“sociologia”
e
 ((filosofia OR storia) NOT (sociologia AND comunicazione))
 Documenti che contengono “filosofia” o “storia”, ma non
“sociologia”e “comunicazione”
 (filosofia XOR storia)
 Documenti che contengono “filosofia” o “storia”, ma non
Angela Scaringella – Scienze della Comunicazione
entrambi.
I principali motori di ricerca internazionali sono:
•
•
•
•
Altavista http://www.altavista.digital.com
Google http://www.google.com
Infoseec http://www.infoseec.com
Lycos http://www.lycos.com
I motori di ricerca italiani più usati sono:
• Arianna http://www.arianna.it
che dà anche la possibilità di collegarsi ai principali motori internazionali
• Virgilio http://www.virgilio.it
• Google http://www.google.it
Angela Scaringella – Scienze della Comunicazione
Altavista
Come in quasi tutti i motori di ricerca, se si digita una serie di
parole, si ricercano i documenti che contengono almeno una di
esse.
Una successione di parole messe tra virgolette indica che si
cercano i documenti che contengono queste parole in successione.
Si usa il simbolo + prima di una parola o di una successione di
parole tra virgolette per indicare che quella parola o successione di
parole deve apparire comunque nei documenti.
Analogamente si usa il simbolo – per escludere la parola o la
successione di parole che non devono apparire nei documenti.
Angela Scaringella – Scienze della Comunicazione
Altavista
Se si vuole eseguire una ricerca più raffinata si seleziona
“advanced research” (ricerca avanzata) che permette di
utilizzare gli operatori booleani (AND, OR, NOT) e inoltre di
scegliere i criteri di ordinamento dei risultati.
L’ordinamento (page rank) dei documenti viene fatto in base
alla frequenza con cui le parole appaiono nei documenti e
tenendo anche conto se esse appaiono anche nei titoli dei
documenti (tag title).
Angela Scaringella – Scienze della Comunicazione
Google
Oltre alle varie modalità logiche viste in precedenza, con Google si
possono fare selezioni sulla lingua, sulla data e le parole che
appaiono nel titolo.
Una caratteristica importante di Google è che ordina le pagine
trovate non solo in base alla frequenza, in cui i termini appaiono,
ma anche in base all’autorevolezza che viene misurata dal numero e
dall’autorevolezza dei “link” che puntano al documento. In questo
caso si fa uso per la valutazione della rilevanza dei documenti
trovati di una caratteristica degli ipertesti cioè della possibilità di
richiamare all’interno di un documento altri documenti appunto con
l’utilizzazione dei link.
Angela Scaringella – Scienze della Comunicazione
Google
La rete per questa caratteristica assume la forma di un grafo diretto
cioè un insieme di vertici che corrispondono alle pagine Web
collegati da frecce che corrispondono ai link che da un documento
rimandano a un altro.
E’ ragionevole che una pagina che viene puntata con link da molte
altre pagine sia autorevole e ancora di più se le pagine che la
puntano sono a loro volta pagine autorevoli.
Si definisce l’algoritmo del page rank per valutare numericamente
l’autorevolezza di una pagina Web. L’autorevolezza di una pagina
Web viene trasmessa alle pagine Web a cui puntano i suoi link
dividendola in parti uguali per il numero dei link che da essa
partono. Angela Scaringella – Scienze della Comunicazione
Google
Es: autorevolezza = 40, da questa partono 4 link che attribuiscono
autorevolezza 10 alle quattro pagine a cui è linkata.
10
10
40
10
10
Google http://www.google.it
Angela Scaringella – Scienze della Comunicazione
Google
Altra caratteristica di questo motore di ricerca è la possibilità di
accedere a pagine non più presenti sulla rete grazie al comando
copia cache presente sul lato destro dei risultati ottenuti dopo
una ricerca.
E’ così possibile accedere a pagine non più consultabili.
http://www.google.it/
Angela Scaringella – Scienze della Comunicazione
MOTORI
di ricerca
ALLA SAPIENZA
Angela Scaringella – Scienze della Comunicazione
Il metamotore di Ricerca MetaBIDS
Con un solo “clic” l’utente remoto può inoltrare la sua richiesta a
banche dati, archivi di periodici elettronici, cataloghi delle
Biblioteche di tutto il mondo.
MetaBIDS
Angela Scaringella – Scienze della Comunicazione
Altre risorse dell’Università “La Sapienza”
La Biblioteca Italiana
I testi sono codificati in XML, sono in edizione integrale e si fondano
sulle più autorevoli edizioni di riferimento, sono scaricabili
gratuitamente in diversi formati e interrogabili attraverso le funzioni
di “lettura del testo”e di “ricerca avanzata”.
Il sistema produce dinamicamente una versione HTML del documento
XML e un indice dei contenuti per ciascun testo , consente di
effettuare ricerche full-text e ricerche contestuali e di creare
concordanze dinamiche con collegamenti ipertestuali al testo.
Angela Scaringella – Scienze della Comunicazione
Altre risorse dell’Università “La Sapienza”
 Una risorsa per le scienze giuridiche
Partecipano a questo portale 11 Università italiane, la
Biblioteca della Camera dei deputati, della Presidenza del
Consiglio dei Ministri e l’Istituto di Teoria e Tecnica
dell’Informazione Giuridica (ITTIG di Firenze) e il CIDE,
Centro Nazionale di Informazione e Documentazione Europea.
E’ il più grande archivio italiano on-line di normativa ad
accesso pubblico, ad accesso completamente gratuito sino a 5
documenti al giorno.
Angela Scaringella – Scienze della Comunicazione
Altre risorse dell’Università “La Sapienza”
 BigBang
Si tratta di un portale per la cultura anglosassone.
Offre corsi di lingua e un approccio a Internet, con
centinaia di siti, biblioteche umanistiche e scientifiche e
collegamenti radio e televisivi tutti in inglese, tutti gratuiti
e usufruibili anche da casa con una normale connessione
telefonica.
 I testi della letteratura
Angela Scaringella – Scienze della Comunicazione
Web semantico (struttura xml)
Schema di classificazione – Ontologie
Questa tipo di classificazione si basa sul contenuto (ontologie).
Un esempio è la classificazione decimale di Dewey, usata in ambito
bibliotecario.
1
Idrologia e Idrografia
10
1001 Idrografia
100102 Correnti di acque
1002
1001
10010202 Cascate
10010204 Rapide
100102
100105
100203
100105 Laghi
10010504 Lagune
1002 Idrologia
10010202
10010204
10010504
1001020301
100203 Crescita dei fiumi
10020301 Metodi di stima delle piene
Angela Scaringella – Scienze della Comunicazione