Ricerca sul Web
Transcript
Ricerca sul Web
Abilità Informatiche A.A. 2010/2011 Lezione 7: Ricerca sul Web Facoltà di Lingue e Letterature Straniere Come usiamo internet… Top 10 Sectors by Share of U.S. Internet Time Rank Category Share of Time Share of Time Change in Share June 2010 (%) June 2009 (%) of Time (%) 1 Social Networks 22.7 15.8 43 2 3 4 5 Online Games E-Mail Portals Instant Messaging 10.2 8.3 4.4 4.0 9.3 11.5 5.5 4.7 10 -28 -19 -15 6 7 8 Videos/Movies Search Software Manufacturers 3.9 3.5 3.3 3.5 3.4 3.3 12 1 0 9 Multi-Category Entertainment 2.8 3.0 -7 10 Classifieds/Auctions 2.7 2.7 -2 Other 34.3 37.3 -8 Source: The Nielsen Company Una “ricerca” su web, in media dura 11 minuti. Il 50% delle ricerche sono abbandonate 2 3 4 5 6 Domain Counts & Internet Statistics Overview for October 14, 2010 All New Deleted Transferred TLD 123,554,269 134,101 81,326 144,359 All TLDs 90,320,858 95,267 53,554 108,675 .COM 13,426,580 12,357 8,005 17,665 .NET 8,832,647 9,894 5,749 6,945 .ORG 7,120,213 11,889 11,013 8,496 .INFO 2,132,866 2,604 1,672 1,491 .BIZ 1,721,105 2,090 1,333 1,087 .US 7 Browser Statistics Month by Month 2010 September August July June May April March February January 2008 December 8 8 Internet Explorer 31.1 % 30.7 % 30.4 % 31.0 % 32.2 % 33.4 % 34.9 % 35.3 % 36.2 % Firefox Chrome Safari Opera 45.1% 45.8% 46.4% 46.6% 46.9% 46.4% 46.2% 46.5% 46.3% 17.3% 17.0% 16.7% 15.9% 14.5% 13.6% 12.3% 11.6% 10.8% 3.7% 3.5% 3.4% 3.6% 3.5% 3.7% 3.7% 3.8% 3.7% 2.2% 2.3% 2.3% 2.1% 2.2% 2.2% 2.2% 2.1% 2.2% Internet Explorer Firefox Chrome Safari Opera 46.0 % 44.4% 3.6% 2.7% 2.4% 9 Come è fatto web? web di “superficie” (surface web) costituito dalle pagine statiche (HTML puro) pubblicamente disponibili web “profondo” (deep web) costituito dai siti web dinamici e dai database accessibili attraverso una interfaccia web 10 Database “nascosti” (2) View form Form page (1) Download form (4) Submit form (3) Fill-out form (5) Download Web query response front-end (6) View result Response page Browser 11 Hidden Database Quanto grande? web profondo (pagine dinamiche) database commerciali siti che richiedono login cataloghi, elenchi, orari 550 volte più grande del web statico 12 Cercare in rete... Cerchiamo “musica per liuto”... cosa cerchiamo davvero? la definizione di “musica per liuto” una bibliografia articoli e notizie disponibili direttamente in rete spartiti di musica per liuto un corso su come si suona il liuto immagini di liuti notizie utili ad acquistare un liuto dischi di musica per liuto acquistabili in rete brani registrati di musica per liuto informazioni e valutazioni critiche su diversi esecutori 13 Informazione strutturata e informazione non strutturata Per svolgere correttamente una ricerca non basta conoscerne l'argomento - sapere cioè su che cosa vogliamo trovare informazione. Bisogna anche sapere che tipo di informazione vogliamo trovare. Nel cercare informazione in rete va tenuta presente la differenza fondamentale fra informazione fortemente strutturata e informazione „libera‟, non strutturata e a volte occasionale. 14 Cercare informazione strutturata Esempio: per raccogliere una bibliografia sul liuto e la musica per liuto, un buon punto di partenza può essere, evidentemente, il catalogo di una biblioteca I cataloghi accessibili on-line vengono spesso denominati OPAC: On-line Public Access Catalog Esempi: la Library of Congress: http://catalog.loc.gov/ il catalogo del Servizio Bibliotecario Nazionale: http://www.internetculturale.it/genera.jsp/ le biblioteche italiane http://www.aib.it 15 Ricerca bibliografica Che tipo di informazione abbiamo cercato? Se la ricerca ha esito positivo, ne ricaveremo un certo numero di schede bibliografiche, con una struttura costante (autore, titolo, luogo e anno di edizione, numero delle pagine, formato, collocazione...). Il catalogo di una biblioteca contiene schede di libri, non direttamente i libri. Il libro di norma non è in rete: il catalogo di una biblioteca raccoglie informazioni sui libri, i libri fisici stanno negli scaffali. Sapere quali libri è possibile consultare su un determinato argomento, e dove reperirli, è un primo passo fondamentale: Internet modifica radicalmente questa fase della ricerca. Internet fornisce un grosso aiuto per trovare informazioni bibliografiche, ma di norma non consente l'accesso diretto al testo dei libri di cui abbiamo reperito i dati. Ma nessuno userebbe il catalogo di una biblioteca per cercare una immagine di un liuto, o informazioni su quali dischi di liuto comprare. 16 Ricerca su banche dati Il catalogo della Library of Congress è un esempio di banca dati specializzata Il contenuto di una di queste banche dati è accessibile attraverso Internet, ma non nello stesso senso in cui lo è, ad esempio, una pagina di World Wide Web: se utilizzassimo un motore di ricerca che indicizza le informazioni presenti su World Wide Web, non arriveremmo mai dentro al catalogo di una biblioteca (a meno, naturalmente, che il catalogo stesso non sia interamente costruito utilizzando pagine HTML). 17 Perché? Le pagine HTML che ci forniscono il risultato di una ricerca in una banca dati specializzata sono generate 'al volo' dal server in risposta alla nostra interrogazione non sono dunque conservate su un file permanente. Ciò significa che i motori di ricerca non possono raggiungerle e indicizzarle Sarebbe del resto ovviamente impossibile indicizzare i risultati di tutte le possibili ricerche su una base dati catalografica. 18 Informazione “sparsa” Per gli altri tipi di ricerca concernenti il liuto non ricorreremo a banche dati altamente strutturate come il catalogo di una biblioteca, ma all'informazione sparsa disponibile in rete. Vuol dire che qualcuno - una istituzione musicale, un appassionato, un negozio di musica - ha ritenuto di rendere accessibili informazioni da lui considerate interessanti o utili. Troveremo immagini di liuti? Molto probabilmente sì, ma non ne siamo sicuri. Che affidabilità avranno le notizie che raccoglieremo? Impossibile dirlo a priori! 19 L’informazione cresce? Facendo una ricerca con AltaVista della parola “lute”: 20 marzo 1996 : 5.000 pagine marzo 1997 : 8.000 pagine marzo 1998 : 34.000 pagine gennaio 2002 : 164.000 pagine maggio 2005: 1.530.000 pagine maggio 2006: 2.490.000 pagine ottobre 2008: 12.500.000 pagine ottobre 2009: 11.800.000 pagine (hanno fatto “pulizia”?) dicembre 2010: 15.100.00 pagine Dall'informazione ordinata e (dal punto di vista formale) prevedibile di un catalogo di biblioteca siamo passati al mare ricchissimo, ma caotico e disorganizzato, di World Wide Web. In entrambi i casi, Internet è uno strumento prezioso di reperimento dell'informazione. Ma le strategie di ricerca non possono evidentemente essere le stesse. Ordine e Disordine L'informazione ordinata di una banca dati è in genere più puntuale e affidabile, ma, pur essendo raggiungibile attraverso Internet, non è in genere integrata nella grande ragnatela ipertestuale del World Wide Web. L'informazione disordinata di World Wide Web è più difficile da valutare dal punto di vista dell'affidabilità, e per reperirla siamo spesso costretti a navigazioni che possono sembrare quasi casuali, e talvolta frustranti. 21 Fare ricerca in una banca dati Perché la ricerca possa svolgersi in maniera fruttuosa è necessario che l'utente sappia, almeno per linee generali, come è strutturata la base di dati: quali tipologie di campi siano presenti, quali siano le convenzioni adottate per la schedatura (è presente un thesaurus? Vengono usate abbreviazioni, e quali?) quali tipi di ricerca possano essere svolti e così via 22 Operatori booleani La condizione complessa della forma 'a AND b' sarà soddisfatta solo se lo sono entrambe le condizioni più semplici a e b. La condizione complessa della forma 'a OR b' sarà soddisfatta solo se almeno una delle condizioni a e b (e non necessariamente entrambe) è soddisfatta. ad esempio, se cerco un libro che si occupi di musica per liuto, e scritto in italiano o in inglese… (argomento = liuto) AND ((lingua = italiano) OR (lingua = inglese)) 23 Ricerca di informazioni non testuali Molti motori di ricerca mettono a disposizione strumenti specifici per la ricerca di informazione non testuale www.alltheweb.com 24 Ricerca di informazioni non testuali … a volte confondendo categorie di informazione piuttosto diverse: www.altavista.com 25 Ricerca di informazioni non testuali Nella ricerca di informazione non testuale, è particolarmente importante il concetto di metainformazione. Infatti per trovare un‟immagine, un brano musicale, un video, dobbiamo comunque usare delle parole chiave o una descrizione testuale (usando dunque un codice diverso rispetto a quello dell‟informazione cercata). La metainformazione disponibile dipende, naturalmente, da chi ha immesso in rete l‟immagine, il suono o il video che cerchiamo. Purtroppo, raramente vengono utilizzati criteri rigorosi o uniformi. 26 Ricerca di informazioni non testuali Basti pensare ai risultati che otteniamo in una ricerca di file musicali usando un programma come Napster… I criteri con i quali sono catalogati i brani musicali differiscono da utente a utente, rendendo assai difficile la lettura dei risultati. 27 Ricerca di informazioni non testuali Anche quando cerchiamo immagini o brani video, molto spesso le indicazioni fornite dal nome del file, dal testo descrittivo (ALT="…") dell‟immagine o dal contesto della pagina nella quale il documento audiovisivo è collocato non sono sufficientemente esplicite. Occorre quindi eliminare molto „rumore‟. 28 Portali “Un portale è un prodotto editoriale on-line che svolge la funzione di punto privilegiato di accesso al Web per gli utenti e che fornisce loro risorse informative, servizi di comunicazione personale, e strumenti con cui localizzare e raggiungere i contenuti e i servizi on-line di cui hanno comunemente bisogno” (Calvo, Ciotti, Roncaglia, Zela, Frontiere di rete, Laterza 2001) 29 Portali Possiamo distinguere due principali tipologie di portali: Portali orizzontali (o generalisti) I portali orizzontali sono rivolti in maniera indifferenziata a tutte le categorie di utenti, e cercano di soddisfarne il maggior numero possibile di necessità. Portali verticali (o tematici) 30 I portali verticali sono invece dedicati a temi o categorie di utenti specifiche, e hanno l‟ambizione di fornire accesso a un insieme completo e organizzato di risorse nell‟ambito tematico prescelto. Portali MSN, il portale orizzontale di casa Microsoft: www.msn.it 31 Ricerca di informazioni non testuali Risultati di una ricerca di immagini con chiave “Alessandro Manzoni” La filiale di una banca in Viale Alessandro Manzoni Un albergo della stessa catena si trova in Via Manzoni 32 Cercare un indirizzo di email Su Internet non esiste l'equivalente diretto di un elenco telefonico, e non c'è quindi un sistema certo per trovare un indirizzo di posta elettronica. Non si tratta di una carenza casuale: il meccanismo di funzionamento della rete è totalmente decentrato: L‟aggiunta di nuovi nodi può avvenire in ogni momento senza bisogno di „informarne‟ direttamente tutta la rete lo stesso vale per l‟aggiunta di singoli utenti. 33 Che fare? motori di ricerca specializzati: http://www.123people.com/ Yahoo! People Search (http://people.yahoo.com/) Bigfoot (http://www.bigfoot.com) -USA Internet Address Finder (http://www.iaf.net) - USA WhoWhere (http://www.whowhere.lycos.com/) - USA Switchboard (http://www.switchboard.com) - USA Infospace (http://www.infospace.com/) - USA Pagine Bianche (http://www.paginebianche.it) - Italy Meta-indici: Meta Email Search Agent (http://mesa.rrzn.uni-hannover.de/) Ultimate e-mail directory (http://www.theultimates.com/email/) 34 Ricerca “libera” Le pagine informative immesse in rete riguardano gli argomenti più vari, e provengono da fornitori di informazione di natura assai eterogenea: dalle università alle industrie private (grandi e piccole), dai centri di ricerca ai negozi, dalle imprese editoriali ai partiti politici.Vi sono poi le numerosissime 'home page' personali del popolo di Internet. Chi svolge una ricerca in rete si trova dunque davanti un duplice problema: reperire l'informazione cercata e valutare la sua correttezza, completezza, imparzialità. 35 Da dove partire Vi sono due tipi di risorse che è bene conoscere e che, innanzitutto, occorre saper distinguere : i motori di ricerca per termini: permettono di ricercare parole o combinazioni di parole in un archivio indicizzato di documenti in formato digitale. gli indici sistematici: la ricerca avviene su cataloghi ragionati di risorse, suddivisi per settori e organizzati gerarchicamente. 36 Indici sistematici Il modello adottato ricorda l'arbor scientiae di derivazione medievale e rinascimentale, largamente usato anche in ambito enciclopedico e bibliotecario come alternativa alla organizzazione alfabetica L‟esempio per eccellenza è Yahoo! ('Yet Another Hierarchical Officious Oracle'), nato nell'aprile 1994, quando David Filo e Jerry Yang, studenti di ingegneria elettronica all'Università di Stanford, iniziarono a creare pagine riassuntive con link ai siti Internet di loro interesse. 37 Repertori chiusi Gruppo chiuso di revisori/classificatori (editors) Editors professionisti Esempi: Yahoo Directory (dir.yahoo.com) Looksmart (www.looksmart.com) Librarians‟ Index to the Internet (lii.org) Internet Public Library (www.ipl.org) InfoMine (infomine.ucr.edu) www.excite.it/directory directory.virgilio.it/ 38 Repertori open Editors su base volontaristica Compilano l‟indice su aree di specifica competenza personale Open Directory Project (ODP) http://dmoz.org Catalogo molto grande 5,302,785 sites - 72,287 editors - over 590,000 categories Utilizzato da molti altri siti Google (ad esempio: directory.google.it) WWW Virtual Library catalogo del Web iniziato da Tim Berners-Lee Molto più piccolo di ODP: propone link verso cataloghi locali http://vlib.org 39 Repertori specializzati Cataloghi limitati ad argomenti particolari Esempi The Internet Guide to Engineering, Mathematics and Computing http://www.intute.ac.uk/sciences/ Molti siti propongono un piccolo elenco di link verso siti che trattano argomenti simili ("related links") È molto interessante se il catalogo è proposto da un sito di alta qualità 40 I motori di ricerca per termini In questi casi la ricerca avviene indicando una parola, o una combinazione di parole, che consideriamo associata al tipo di informazione che vogliamo reperire, e insieme abbastanza specifica da non produrre una quantità eccessiva di risultati non pertinenti. Questo evidentemente può avvenire solo se abbiamo un'idea sufficientemente chiara di quello che stiamo cercando, e se l'ambito della nostra ricerca può essere associato in maniera ragionevolmente immediata a un termine, o a un piccolo insieme di termini. 41 Il punto di vista degli utenti L‟utente occasionale esprime queries estremamente semplici, che contengono pochi termini, preferisce ripetere la query quando il risultato non lo soddisfa Giudica la qualità della ricerca sulla base dei primi 10 risultati non ha idea di quello che non è stato trovato si aspetta che il motore gli restituisca informazione rilevante 42 Alcuni dati sugli utenti… Queries mal definite Corte MEDIA 2001: 2.54 termini in media, 80% < 3 parole Termini imprecisi Sintassi non ottimale (80% queries senza operatori) Sforzo non significativo Ampia varianza in Necessità Attese Conoscenza Banda 43 Comportamenti 85% esaminano solo una schermata di risposta 78% delle queries non vengono poi modificate (una query/sessione) 1% utenti usa advanced search Il punto di vista degli autori web Qualunque sia l‟informazione messa in rete, la ragione per cui viene pubblicata è perché sia visitata da altri Il desiderio è quello di essere trovati facilmente Ed essere trovati da quelli che sono realmente interessati a quel materiale messo in rete Ci può essere un profitto legato semplicemente all‟accesso a quella pagina (es, a fini di raccolta pubblicitaria) 44 Il punto di vista del motore di ricerca Il punto essenziale è vendere il banner pubblicitario Per attrarre “visitatori”: devono convincere che il motore risponde alle attese deve dare risposta in tempi brevi Possono “tentare” il visitatore a fare molteplici queries (per incrementare l numero di visite) 45 …ma sono onesti? Alcuni motori di ricerca, oltre ai banner pubblicitari, “vendono” le posizioni (ranking) viene trovato prima chi “paga” di più. non c‟è nessuna garanzia che il ranking corrisponda al contenuto reale delle pagine Devono usare tecnologie a basso costo (il ritorno pubblicitario non giustifica forti investimenti). 46 Come funziona un motore di ricerca? Ci sono una serie di agenti (spiders) che girano per la rete alla ricerca di documenti da indicizzare I documenti HTML sono indicizzati automaticamente usando soprattutto le parole chiave presenti nel testo Quando un utente sottomette una query, interroga l‟indice locale del motore di ricerca (IR Engine) Il risultato è una lista di puntatori a documenti che sono ritenuti rilevanti rispetto alla query Utenti e WebMaster possono “sottomettere” direttamente ai motori di ricerca pagine da indicizzare 47 Spiders e Indexer 48 Spiders e Indexer Il Web è un enorme grafo, i cui nodi sono le pagine web e gli archi sono costituiti dai links. Gli Spiders devono attraversare questo grafo e passare all‟Indexer i documenti trovati 49 Da dove partono gli spiders? Da una seed-URL Da un insieme di URL selezionate in base alla popolarità Associando a spiders diversi diverse partizioni del web Partendo dalle URL sottomesse dai webmasters Nell‟esplorare un sito web, usano l‟ipotesi che esso sia ordinato gerarchicamente 50 Coverage I motori di ricerca visitano fino a 10 milioni di pagine al giorno (sia vecchie che nuove pagine) Il più grosso motore di ricerca indicizza il 50% delle pagine presenti in rete, gli altri solo il 15-20%. La sovrapposizione tra motori di ricerca è molto limitata 51 Freshness Spesso i risultati di una ricerca sono link a pagine non più esistenti, o con contenuto diverso da quello indicizzato Gli spiders possono “imparare” ad aggiornare la frequenza di visita di certi siti In ogni caso, c‟è sempre un ritardo dal momento in cui una pagina viene creata o modificata rispetto al momento in cui il motore di ricerca se ne accorge 52 Information Retrieval Engine Quando l‟utente scrive una lista di parole… alcuni motori di ricerca selezionano le pagine indicizzate che contengono tutte le parole altri motori selezionano quelle che contengono almeno una delle parole Alcuni motori sono “case sensitive” Alcuni motori eliminano automaticamente alcune parole se non esplicitamente impedito con i doppi apici Alcuni motori suggeriscono quali termini aggiungere alla query per raffinare il risultato 53 Indexer L‟Indexer produce una rappresentazione interna del documento Ad ogni keyword viene associato un peso che descrive quante volte esso è presente nel documento Ci sono varie strategie per assegnare questo peso: 54 la posizione nel documento la formattazione (boldface,…) la frequenza relativa strategie anti-spamming Indexer La posizione dei termini in un documento è cruciale: Termini contenuti nel “title” Termini contenuti nell‟”head” Termini contenuti nelle prime righe di testo Da ogni elemento della lista restituita dal motore di ricerca in corrispondenza di una query ricaviamo: ranking, URL, titolo, abstract e altra informazione 55 come farsi conoscere? Quando si crea una pagina nuova nessuno ci linka (ancora) Registrarsi presso i diversi siti dei motori Farsi classificare in repertori e indici Farsi linkare da siti ben noti 56 57 Ranking: tre approcci base ranking by relevance higher statistical relevance of keywords altavista.com ranking by pay (pay-per-click) more you pay higher your rank overture.com ranking by popularity a page with many links to it, is assumed to be more important google.com 58 Nel 1998 Due idee simili: HITS (John Klimberg) PageRank (S. Brin & L. Page) L’importanza di una pagina non dipende da colui che “possiede” e scrive la pagina 59 Idea di base Si guarda la struttura dei link p q L‟autore della pagina p da‟ un voto alla pagina q Idea: Se una pagina ha un contenuto interessante ci saranno molte pagine che la riferiscono. 60 Ranking L‟importanza delle pagine è determinata dalla struttura del grafo web Questi algoritmi non utilizzano informazioni sul contenuto delle pagine È il grafo stesso a dirci se la pagina è interessante 61 HITS (Kleimberg) Ogni pagina ha due punteggi: ai punteggio autority hi punteggio hub Una pagina è una buona “autority” se è riferita da buoni hub. Una pagina è un buon “hub” se contemporaneamente riferisce buone autority su uno stesso argomento. Se la pagina p punta a pagine con un alto valore come autority deve ricevere un alto punteggio come hub Se p è riferita da molte pagine che hanno un alto punteggio come hub, allora deve ricevere un alto punteggio come autority 62 HITS Authority Hubness 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Authority and hubness weights La pagina 1 e la pagina 10 sono le più autorevoli Sono riferite da buone pagine hub: la 2 e la 12 63 PageRank (Google) Ranking “statico”- PageRank A tempo di query si trovano le pagine pertinenti la query L‟ordinamento delle pagine restituite si basa sul PageRank delle pagine che era stato precomputato 64 PageRank Una pagina è importante se è votata da pagine importanti Il voto si esprime “linkando” una pagina A differenza di HITS non ho pagine hub! 65 Metaricerca Gli strumenti di metaricerca – in grado di interrogare al posto nostro e in maniera intelligente più strumenti di ricerca „di primo livello‟ – sono molti. Un buon esempio di strumento di metaricerca è IxQuick, che interroga in parallelo più motori di ricerca e ha un proprio algoritmo per l‟ordinamento dei risultati trovati. www.ixquick.com 66 Agenti di ricerca Un agente di ricerca potrebbe anche non risiedere sul nostro computer (in modo da continuare il suo lavoro anche quando non siamo collegati a Internet); potrebbe ‘collaborare’ con altri agenti di ricerca impegnati in ricerche simili alla sua; potrebbe organizzare e formattare i risultati della sua ricerca in base a criteri fissati in precedenza, ecc. 67 Agenti di ricerca: qualche esempio Copernic è un esempio di utlizzo di strumenti di ricerca per accedere all‟informazione contenuta nei propri files e nelle proprie e-mail, indipendentemente da come questa è organizzata www.copernic.com 68 Agenti di ricerca: qualche esempio EndNote è in grado di generare automaticamente bibliografie, reperendo i dati bibliografici completi di testi da noi citati in maniera approssimativa attraverso una ricerca su basi dati bibliografiche. www.niles.com 69 Il futuro soddisfare “the need behind the query” Query language determination Different ranking (if query Japanese do not return English) Hard & soft matches Personalities (triggered on names) Cities (travel info, maps) Medical info (triggered on names and/or results) Stock quotes, news (triggered on stock symbol) Company info, … Integration of Search and Text Analysis 70