Motori di ricerca
Transcript
Motori di ricerca
Motori di ricerca Gabriella Trucco Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione Corso IFTS: Motori di ricerca 6-2-2006 1 Argomenti della lezione Introduzione ai motori di ricerca Portali, motori di ricerca e directory Informazione strutturata Informazione libera 2 Motori di ricerca: cosa sono? Sistemi per il reperimento di informazioni contenute nel World Wide Web. Ricerca effettuata tramite parole chiave, keywords: termini che definiscono l’argomento da cercare. Risultato della ricerca: elenco di indirizzi di pagine Web che contengono le keyword specificate. Classifica in base a formule matematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca. Inizialmente alcune centinaia di motori di ricerca: limitate risorse per il mantenimento. Crescita esponenziale del Web Æ solo i più potenti sono sopravvissuti, trasformandosi in portali (altri servizi affiancati alla ricerca nel Web). 3 Alcuni motori di ricerca Google: http://www.google.it Yahoo!: http://www.yahoo.com/ Arianna: http://arianna.libero.it/ 4 Inserimento Inserimento delle pagine Web negli archivi dei motori di ricerca può avvenire in due modi: registrazione manuale da parte dell'utente (il responsabile del sito ad esempio); in modo automatico attraverso un particolare software che riesce a visitare milioni di siti Web al giorno, inserendo le nuove pagine ed aggiornando le informazioni su quelle già censite. Attraverso tale funzione, i motori di ricerca mantengono un archivio piuttosto aggiornato, anche se nessuno riesce (né riuscirà mai) a classificare l'intero Web. ESERCIZIO: verificare che, con la stessa chiave di ricerca, motori diversi producono risultati diversi. 5 Funzioni di un motore di ricerca Il lavoro dei motori di ricerca sul web si divide principalmente in tre fasi: analizzare il web, tramite l'uso di programmi appositi (web crawler, spider o robots), che si occupano di visitare automaticamente i siti contenuti nel database del motore di ricerca e seguire tutti i link che trovano al loro interno, inserendo di volta in volta nel database tutte le informazioni "sensibili" della pagina (contenuto testuale, varie informazioni su di essa come la data di ultimo aggiornamento, e molto altro). catalogare il materiale ottenuto dalla navigazione; rispondere alle richieste degli utenti: ricerca nel database delle pagine contenenti le parole chiave inserite; uso di algoritmi per classificare le pagine, controllando, per esempio, quante volte le parole chiave vengono ripetute, quanti siti del database contengono link verso quella pagina, o quante volte un utente ha visitato quel sito dopo una ricerca. 6 Portale Motori di ricerca accessibili direttamente dal sito di riferimento, o tramite altri siti: i portali. L’utente non viene dirottato sul sito del motore di ricerca (es. Google); i risultati forniti sono ottenuti dal motore di ricerca in question ed incorporati nel portale. Portale: sito web che costituisce un punto di partenza, una porta di ingresso ad un gruppo consistente di risorse di Internet. Ampia gamma di prestazioni, servizi, contenuti e collaborazioni commerciali o culturali: Motore di ricerca / Directory. Groupware e Collaborazione. Gestione della conoscenza e del contenuto. Firma personale. Business intelligence e Integrazione delle applicazioni. … 7 Alcuni portali Sito / portale Motore su cui si appoggia Google Google Libero Arianna Virgilio Google Tiscali Yahoo! MSN Yahoo! Altavista Yahoo! Yahoo! Yahoo! Lycos Yahoo! Supereva Google Excite Yahoo! 8 Portali, motori di ricerca e directory Non sempre il portale specifica su che motore si appoggia. I risultati possono variare leggermente rispetto all’uso diretto. Opzioni di ricerca diverse: es. filtraggio dei siti in base alla lingua. Elenco dei link a pagamento, oltre ai risultati generati dal motore di ricerca. Molti portali includono directory: catalogo di siti suddivisi per argomenti: arte, sport, attualità, … Indice della directory non viene compilato automaticamente da uno spider, ma serve il supporto di uno strumento (editor) che raccoglie le segnalazioni dei Webmaster e colloca i siti nella categoria più appropriata. Strumento sempre meno utilizzato: con l’aumento esponenziale del numero di siti è difficile catalogare tutto! 9 Esempio di ricerca Supponiamo di dover svolgere una ricerca sulla musica per chitarra. Cos’è una chitarra, eventuali suddivisioni di questa famiglia di strumenti; una bibliografia (per poter poi cercare in biblioteca i libri o gli articoli che ci interessano); spartiti di musica; un corso su come si suona la chitarra; immagini di chitarre; notizie utili ad acquistare una chitarra (ad esempio, indirizzi e prezzi); indicazioni su dischi di musica per chitarra (con la possibilità di acquistare in rete i dischi che ci interessano); brani di musica per chitarra, da scaricare, ascoltare e magari riunire in un CD realizzato unicamente con musica reperita in rete; il video di un concerto per chitarra; informazioni e valutazioni critiche sui diversi esecutori. 10 Come si fa ricerca in Internet Per svolgere correttamente una ricerca non basta conoscerne l'argomento - sapere cioè su che cosa vogliamo trovare informazione. Bisogna anche sapere che tipo di informazione vogliamo trovare. Non possiamo pensare di cercare in un unico posto, o di usare un unico strumento di ricerca. Differenza fra informazione fortemente strutturata… Banca dati: è in genere puntuale e affidabile, ma, pur essendo raggiungibile attraverso Internet, non è in genere integrata nella grande ragnatela ipertestuale del Web. … e informazione 'libera', non strutturata e a volte occasionale. disponibile sotto forma di pagine Web, è più difficile da valutare dal punto di vista dell'affidabilità, e per reperirla siamo spesso costretti a navigazioni che possono sembrare casuali. 11 Informazione strutturata (1) Fare ricerca all’interno di basi di dati. Il contenuto delle banche dati è accessibile attraverso Internet, ma non nello stesso senso in cui lo è, ad esempio, una pagina Web: se utilizzassimo uno dei cosiddetti 'motori di ricerca' che indicizzano le informazioni presenti su Web, non arriveremmo mai dentro al catalogo di una biblioteca. Esempio: ricerca bibliografica. ricerca su basi di dati altamente strutturate: gli OPAC (On-line Public Access Catalog), ovvero i cataloghi on-line ad accesso pubblico di moltissime biblioteche. Il catalogo informatizzato di una biblioteca è una raccolta ordinata di informazioni, che è possibile consultare attraverso una interfaccia standard, e su cui è possibile effettuare ricerche attraverso un linguaggio di interrogazione. 12 Informazione strutturata (2) Affinché la ricerca su basi di dati produca risultati utili, l'utente deve conoscere: come è strutturata la base di dati: tipologie di campi; convenzioni adottate per la schedatura abbreviazioni); tipi di ricerca che possono essere svolti, ... (es. eventuali affidabilità della banca dati, e suo stato di aggiornamento. l'uso degli operatori booleani 13 Operatori booleani AND: una condizione complessa della forma 'a AND b' è soddisfatta solo se lo sono entrambe le condizioni più semplici a e b. OR: la condizione complessa della forma 'a OR b' sarà soddisfatta solo se almeno una delle condizioni a e b (e non necessariamente entrambe) è soddisfatta. Es. cerco un libro che si occupi di musica per chitarra, pubblicato dopo il 1980 e scritto in italiano. Es. (argomento = chitarra) AND ((lingua = italiano) OR (lingua = inglese)). NOT: nega una condizione. Per esempio, potrebbe servire ad escludere dalla nostra ricerca i libri di un particolare autore, o i libri che abbiamo già consultato. 14 Ricerche bibliografiche Alcuni siti utili per svolgere ricerche bibliografiche: sito dell'AIB (Associazione Italiana Biblioteche): http://www.aib.it/. catalogo della Library of Congress: http://catalog.loc.gov/. British Library: http://blpc.bl.uk/. Bibliothèque Nationale di Parigi: http://catalogue.bnf.fr/. catalogo del Servizio Bibliotecario Nazionale (SBN): http://opac.sbn.it/. Institute of Electrical and Electronics Engineers: http://www.ieee.org/web/publications/home/index.html. Digital library ACM: www.acm.org/dl/toc.html. ESERCIZIO: trovare informazioni bibliografiche relativamente alla musica per chitarra. ESERCIZIO: trovare tre articoli riguardanti la tecnologia UMTS, usata per la telefonia mobile. Per ognuno trovare titolo, nome degli autori, nome della conferenza o della rivista da cui è tratto l’articolo, anno di pubblicazione e abstract. 15 Ricerca libera su Web (1) Ricerca libera fatta usando tre possibili strumenti: motori di ricerca per termini. permettono di ricercare parole o combinazioni di parole in un archivio indicizzato di documenti in formato digitale. comoda nel caso di nomi propri, o nel caso in cui le informazioni che vogliamo trovare si lascino caratterizzare attraverso termini specifici. ricerca meccanica, basata su confronto di stringhe: l'intelligenza della ricerca dipende in gran parte dalla scelta delle parole usate come parametri. la base di indicizzazione di un motore di ricerca per termini copre solo una parte delle pagine realmente disponibili in rete. Google indicizzava circa un miliardo e mezzo di pagine a metà 2002, a maggio 2003 dichiarava di indicizzare oltre tre miliardi di pagine Web; oggi oltre 8 miliardi. È probabile che nessun motore di ricerca arrivi a coprire più del 30-35% del numero complessivo di pagine in rete. I risultati di una ricerca in rete non vanno mai considerati completi o definitivi; la stessa ricerca, svolta in momenti diversi o utilizzando strumenti diversi, fornirà risultati diversi. 16 Ricerca libera su Web (2) Indici sistematici. avviene su cataloghi ragionati di risorse (directory), suddivisi per settori e organizzati gerarchicamente. La base dati è ristretta: possibilità di trovare poche informazioni. La valutazione della pertinenza o meno di una determinata informazione non sarà più meccanica, bensì risultato di una decisione umana, e l'informazione stessa sarà inserita all'interno di una struttura di classificazione. A differenza di un motore di ricerca per termini, che indicizza e restituisce singole pagine (cioè quelle nelle quali compare il termine cercato), l'indice sistematico indicizza interi siti. Navigazione libera attraverso pagine di segnalazioni di risorse specifiche. chi rende disponibili informazioni su un determinato argomento, dovrebbe anche fornire anche una lista di link alle principali altre risorse esistenti in rete al riguardo. Risorse segnalate scelte in maniera esplicita e ragionata, per opera di una persona che presumibilmente conosce bene il settore in questione. 17 Motori di ricerca Esempio: http://www.google.it/. Due modalità di ricerca: Semplice. base dati costituita dalle pagine Web. 'AND‘ tra le parole inserite come chiave di ricerca; risultato: pagine in cui compaiono tutti i termini inseriti. pulsante 'Mi sento fortunato‘: anziché arrivare a una lista di pagine Web che soddisfano i nostri criteri di ricerca salteremo direttamente alla prima di tali pagine. Opzione basata sull’algoritmo di ordinamento dei risultati: la pagina proposta è quella che Google considera più rilevante ai nostri scopi. Avanzata: controllo raffinato delle opzioni di ricerca. Es. lingua, domini di ricerca, … Ricerca di immagini: http://images.google.it/ Ricerca di notizie: http://news.google.it/ ESERCIZIO: ricercare informazioni su Ernest biografia, opere, fotografie... Hemingway: 18 Ranking Meccanismo di ordinamento per importanza dei risultati. Risultati più rilevanti mostrati per primi. Algoritmi per determinare l'importanza di una pagina basati su un insieme piuttosto complesso di fattori: ad esempio, se i termini da noi ricercati sono nel titolo di una pagina, o nelle sue aree attive, o compaiono molto spesso, o se molti degli utenti che hanno svolto la nostra stessa ricerca hanno selezionato quella pagina nell'elenco dei risultati, o se molti altri siti hanno link verso di essa, 19 Indici sistematici Esempio: http://dir.yahoo.com/. ricercare informazioni sulle traduzione raggiungibili attraverso Internet. ESERCIZIO: agenzie di Suggerimento: categoria di partenza: 'Business and Economy‘; sottocategoria 'Business to Business‘, suddivisione 'Translation Services'. Una lista che al momento comprende link a 325 pagine in rete. Alternativa: categoria 'Social Science', sottocategoria 'Linguistics and Human Languages', link 'Translation Services‘. ESERCIZIO: ricercare informazioni relative alle condizioni meteo nei prossimi giorni. 20