Motori di ricerca

Transcript

Motori di ricerca
Motori di ricerca
Gabriella Trucco
Università degli Studi di Milano
Dipartimento di Tecnologie dell’Informazione
Corso IFTS: Motori di ricerca
6-2-2006
1
Argomenti della lezione
„
Introduzione ai motori di ricerca
„
Portali, motori di ricerca e directory
„
Informazione strutturata
„
Informazione libera
2
Motori di ricerca: cosa sono?
„
„
„
„
„
Sistemi per il reperimento di informazioni contenute nel World
Wide Web.
Ricerca effettuata tramite parole chiave, keywords: termini che
definiscono l’argomento da cercare.
Risultato della ricerca: elenco di indirizzi di pagine Web che
contengono le keyword specificate. Classifica in base a formule
matematiche che ne indichino il grado di rilevanza data una
determinata chiave di ricerca.
Inizialmente alcune centinaia di motori di ricerca: limitate
risorse per il mantenimento.
Crescita esponenziale del Web Æ solo i più potenti sono
sopravvissuti, trasformandosi in portali (altri servizi affiancati
alla ricerca nel Web).
3
Alcuni motori di ricerca
„
Google: http://www.google.it
„
Yahoo!: http://www.yahoo.com/
„
Arianna: http://arianna.libero.it/
4
Inserimento
„
Inserimento delle pagine Web negli archivi dei motori di
ricerca può avvenire in due modi:
„
„
„
„
registrazione
manuale
da
parte
dell'utente
(il responsabile del sito ad esempio);
in modo automatico attraverso un particolare software che riesce
a visitare milioni di siti Web al giorno, inserendo le nuove pagine ed
aggiornando le informazioni su quelle già censite.
Attraverso tale funzione, i motori di ricerca mantengono un
archivio piuttosto aggiornato, anche se nessuno riesce (né
riuscirà mai) a classificare l'intero Web.
ESERCIZIO: verificare che, con la stessa chiave di ricerca,
motori diversi producono risultati diversi.
5
Funzioni di un motore di ricerca
„
Il lavoro dei motori di ricerca sul web si divide principalmente in
tre fasi:
„ analizzare il web, tramite l'uso di programmi appositi
(web
crawler, spider o robots), che si occupano di visitare
„
„
automaticamente i siti contenuti nel database del motore di ricerca
e seguire tutti i link che trovano al loro interno, inserendo di volta
in volta nel database tutte le informazioni "sensibili" della pagina
(contenuto testuale, varie informazioni su di essa come la data di
ultimo aggiornamento, e molto altro).
catalogare il materiale ottenuto dalla navigazione;
rispondere alle richieste degli utenti:
„
„
ricerca nel database delle pagine contenenti le parole chiave inserite;
uso di algoritmi per classificare le pagine, controllando, per esempio,
quante volte le parole chiave vengono ripetute, quanti siti del database
contengono link verso quella pagina, o quante volte un utente ha
visitato quel sito dopo una ricerca.
6
Portale
„
Motori di ricerca accessibili direttamente dal sito di riferimento,
o tramite altri siti: i portali.
„
„
„
L’utente non viene dirottato sul sito del motore di ricerca (es.
Google); i risultati forniti sono ottenuti dal motore di ricerca in
question ed incorporati nel portale.
Portale: sito web che costituisce un punto di partenza, una
porta di ingresso ad un gruppo consistente di risorse di Internet.
Ampia gamma di prestazioni, servizi, contenuti e collaborazioni
commerciali o culturali:
„
„
„
„
„
„
Motore di ricerca / Directory.
Groupware e Collaborazione.
Gestione della conoscenza e del contenuto.
Firma personale.
Business intelligence e Integrazione delle applicazioni.
…
7
Alcuni portali
Sito / portale
Motore su cui si appoggia
Google
Google
Libero
Arianna
Virgilio
Google
Tiscali
Yahoo!
MSN
Yahoo!
Altavista
Yahoo!
Yahoo!
Yahoo!
Lycos
Yahoo!
Supereva
Google
Excite
Yahoo!
8
Portali, motori di ricerca e directory
„
„
Non sempre il portale specifica su che motore si appoggia.
I risultati possono variare leggermente rispetto all’uso diretto.
„
„
„
Opzioni di ricerca diverse: es. filtraggio dei siti in base alla lingua.
Elenco dei link a pagamento, oltre ai risultati generati dal motore
di ricerca.
Molti portali includono directory: catalogo di siti suddivisi per
argomenti: arte, sport, attualità, …
„
„
Indice della directory non viene compilato automaticamente da uno
spider, ma serve il supporto di uno strumento (editor) che raccoglie le
segnalazioni dei Webmaster e colloca i siti nella categoria più
appropriata.
Strumento sempre meno utilizzato: con l’aumento esponenziale del
numero di siti è difficile catalogare tutto!
9
Esempio di ricerca
„
Supponiamo di dover svolgere una ricerca sulla musica per chitarra.
„
„
„
„
„
„
„
„
„
„
Cos’è una chitarra, eventuali suddivisioni di questa famiglia di
strumenti;
una bibliografia (per poter poi cercare in biblioteca i libri o gli articoli
che ci interessano);
spartiti di musica;
un corso su come si suona la chitarra;
immagini di chitarre;
notizie utili ad acquistare una chitarra (ad esempio, indirizzi e prezzi);
indicazioni su dischi di musica per chitarra (con la possibilità di
acquistare in rete i dischi che ci interessano);
brani di musica per chitarra, da scaricare, ascoltare e magari riunire in
un CD realizzato unicamente con musica reperita in rete;
il video di un concerto per chitarra;
informazioni e valutazioni critiche sui diversi esecutori.
10
Come si fa ricerca in Internet
„
„
„
Per svolgere correttamente una ricerca non basta conoscerne
l'argomento - sapere cioè su che cosa vogliamo trovare
informazione. Bisogna anche sapere che tipo di informazione
vogliamo trovare.
Non possiamo pensare di cercare in un unico posto, o di usare
un unico strumento di ricerca.
Differenza fra informazione fortemente strutturata…
„
„
Banca dati: è in genere puntuale e affidabile, ma, pur essendo
raggiungibile attraverso Internet, non è in genere integrata nella
grande ragnatela ipertestuale del Web.
… e informazione 'libera', non strutturata e a volte occasionale.
„
disponibile sotto forma di pagine Web, è più difficile da valutare dal
punto di vista dell'affidabilità, e per reperirla siamo spesso costretti
a navigazioni che possono sembrare casuali.
11
Informazione strutturata (1)
„
„
„
Fare ricerca all’interno di basi di dati.
Il contenuto delle banche dati è accessibile attraverso Internet,
ma non nello stesso senso in cui lo è, ad esempio, una pagina
Web: se utilizzassimo uno dei cosiddetti 'motori di ricerca' che
indicizzano le informazioni presenti su Web, non arriveremmo
mai dentro al catalogo di una biblioteca.
Esempio: ricerca bibliografica.
„
„
ricerca su basi di dati altamente strutturate: gli OPAC (On-line
Public Access Catalog), ovvero i cataloghi on-line ad accesso
pubblico di moltissime biblioteche.
Il catalogo informatizzato di una biblioteca è una raccolta ordinata
di informazioni, che è possibile consultare attraverso una
interfaccia standard, e su cui è possibile effettuare ricerche
attraverso un linguaggio di interrogazione.
12
Informazione strutturata (2)
„
Affinché la ricerca su basi di dati produca risultati
utili, l'utente deve conoscere:
„
come è strutturata la base di dati:
„
„
„
„
„
tipologie di campi;
convenzioni adottate per la schedatura
abbreviazioni);
tipi di ricerca che possono essere svolti, ...
(es.
eventuali
affidabilità della banca dati, e suo stato di aggiornamento.
l'uso degli operatori booleani
13
Operatori booleani
„
AND: una condizione complessa della forma 'a AND b' è
soddisfatta solo se lo sono entrambe le condizioni più semplici a
e b.
„
„
OR: la condizione complessa della forma 'a OR b' sarà
soddisfatta solo se almeno una delle condizioni a e b (e non
necessariamente entrambe) è soddisfatta.
„
„
Es. cerco un libro che si occupi di musica per chitarra, pubblicato
dopo il 1980 e scritto in italiano.
Es. (argomento = chitarra) AND ((lingua = italiano) OR (lingua =
inglese)).
NOT: nega una condizione. Per esempio, potrebbe servire ad
escludere dalla nostra ricerca i libri di un particolare autore, o i
libri che abbiamo già consultato.
14
Ricerche bibliografiche
„
Alcuni siti utili per svolgere ricerche bibliografiche:
„
„
„
„
„
„
„
„
„
sito dell'AIB (Associazione Italiana Biblioteche): http://www.aib.it/.
catalogo della Library of Congress: http://catalog.loc.gov/.
British Library: http://blpc.bl.uk/.
Bibliothèque Nationale di Parigi: http://catalogue.bnf.fr/.
catalogo del Servizio Bibliotecario Nazionale (SBN): http://opac.sbn.it/.
Institute
of
Electrical
and
Electronics
Engineers:
http://www.ieee.org/web/publications/home/index.html.
Digital library ACM: www.acm.org/dl/toc.html.
ESERCIZIO: trovare informazioni bibliografiche relativamente alla musica
per chitarra.
ESERCIZIO: trovare tre articoli riguardanti la tecnologia UMTS, usata per
la telefonia mobile. Per ognuno trovare titolo, nome degli autori, nome
della conferenza o della rivista da cui è tratto l’articolo, anno di
pubblicazione e abstract.
15
Ricerca libera su Web (1)
„
Ricerca libera fatta usando tre possibili strumenti:
„
motori di ricerca per termini.
„
„
„
„
„
permettono di ricercare parole o combinazioni di parole in un archivio indicizzato
di documenti in formato digitale.
comoda nel caso di nomi propri, o nel caso in cui le informazioni che vogliamo
trovare si lascino caratterizzare attraverso termini specifici.
ricerca meccanica, basata su confronto di stringhe: l'intelligenza della ricerca
dipende in gran parte dalla scelta delle parole usate come parametri.
la base di indicizzazione di un motore di ricerca per termini copre solo una parte
delle pagine realmente disponibili in rete.
„ Google indicizzava circa un miliardo e mezzo di pagine a metà 2002, a
maggio 2003 dichiarava di indicizzare oltre tre miliardi di pagine Web; oggi
oltre 8 miliardi.
„ È probabile che nessun motore di ricerca arrivi a coprire più del 30-35% del
numero complessivo di pagine in rete.
I risultati di una ricerca in rete non vanno mai considerati completi o definitivi; la
stessa ricerca, svolta in momenti diversi o utilizzando strumenti diversi, fornirà
risultati diversi.
16
Ricerca libera su Web (2)
„
Indici sistematici.
„
„
„
„
„
avviene su cataloghi ragionati di risorse (directory), suddivisi per settori e
organizzati gerarchicamente.
La base dati è ristretta: possibilità di trovare poche informazioni.
La valutazione della pertinenza o meno di una determinata informazione non
sarà più meccanica, bensì risultato di una decisione umana, e l'informazione
stessa sarà inserita all'interno di una struttura di classificazione.
A differenza di un motore di ricerca per termini, che indicizza e restituisce
singole pagine (cioè quelle nelle quali compare il termine cercato), l'indice
sistematico indicizza interi siti.
Navigazione libera attraverso pagine di segnalazioni di risorse specifiche.
„
„
chi rende disponibili informazioni su un determinato argomento, dovrebbe
anche fornire anche una lista di link alle principali altre risorse esistenti in rete
al riguardo.
Risorse segnalate scelte in maniera esplicita e ragionata, per opera di una
persona che presumibilmente conosce bene il settore in questione.
17
Motori di ricerca
„
„
Esempio: http://www.google.it/.
Due modalità di ricerca:
„
Semplice.
„
„
„
„
„
„
„
„
base dati costituita dalle pagine Web.
'AND‘ tra le parole inserite come chiave di ricerca;
risultato: pagine in cui compaiono tutti i termini inseriti.
pulsante 'Mi sento fortunato‘: anziché arrivare a una lista di pagine Web
che soddisfano i nostri criteri di ricerca salteremo direttamente alla prima
di tali pagine. Opzione basata sull’algoritmo di ordinamento dei risultati: la
pagina proposta è quella che Google considera più rilevante ai nostri scopi.
Avanzata: controllo raffinato delle opzioni di ricerca. Es. lingua, domini
di ricerca, …
Ricerca di immagini: http://images.google.it/
Ricerca di notizie: http://news.google.it/
ESERCIZIO: ricercare informazioni su Ernest
biografia, opere, fotografie...
Hemingway:
18
Ranking
„
„
„
Meccanismo di ordinamento per importanza dei
risultati.
Risultati più rilevanti mostrati per primi.
Algoritmi per determinare l'importanza di una pagina
basati su un insieme piuttosto complesso di fattori:
„
„
„
„
ad esempio, se i termini da noi ricercati sono nel titolo di
una pagina, o nelle sue aree attive,
o compaiono molto spesso,
o se molti degli utenti che hanno svolto la nostra stessa
ricerca hanno selezionato quella pagina nell'elenco dei
risultati,
o se molti altri siti hanno link verso di essa,
19
Indici sistematici
„
Esempio: http://dir.yahoo.com/.
„
ricercare informazioni sulle
traduzione raggiungibili attraverso Internet.
ESERCIZIO:
„
„
„
agenzie
di
Suggerimento: categoria di partenza: 'Business and
Economy‘; sottocategoria 'Business to Business‘, suddivisione
'Translation Services'. Una lista che al momento comprende link
a 325 pagine in rete.
Alternativa:
categoria
'Social
Science',
sottocategoria
'Linguistics and Human Languages', link 'Translation Services‘.
ESERCIZIO: ricercare informazioni relative alle condizioni
meteo nei prossimi giorni.
20