Internet non ш il Web - benvenuto nel sito del laboratorio di informatica

Transcript

Internet non ш il Web - benvenuto nel sito del laboratorio di informatica
La ricerca dell’informazione nel Web: Indici e
motori
Parleremo di …
Strumenti per la ricerca
dell’informazione nel Web-space:
quali sono e come funzionano
Dalla Bibliot eca alla Ret e
/DULFHUFDGHOO¶LQIRUPD]LRQHQHO:HE
LQGLFLHPRWRUL
,QGLFL0RWRUL
0HWDPRWRUL
Evelina Ceccato
Al termine della lezione dovreste saper…
• Individuare lo strumento più utile
per una determinata ricerca
d’informazioni nel Web-space
• Utilizzare indici e motori in
modalità semplice ed avanzata
Una precisazione necessaria:
Internet non è il Web
• Ricercare nel Web invisibile
Prima d’iniziare una qualsiasi ricerca
d’informazioni nel Web, è utile rammentare che:
• il Web è un self-publishing medium che consente, a chiunque
possieda un computer collegato alla Rete, di diffondere
informazione a costo zero;
• l’ informazione è immediatamente accessibile e può essere
aggiornata in tempo reale;
• non ci sono regole per la pubblicazione sul Web;
è indispensabile rammentare che…
• non è difficile recuperare informazione nel
Web,
• è difficile reperire l'
informazione che ci
serve in quel preciso momento,
• non ci sono filtri;
• chiunque può accedere all’ informazione disponibile gratuitamente
su Internet
• è difficile
"giusta".
individuare
l'
informazione
• ed infine …
Evelina Ceccato - dicembre 2002
1
La ricerca dell’informazione nel Web: Indici e
motori
Per facilitare la ricerca d’ informazioni nel Web, esistono degli
strumenti che, per comodità e per convenzione,
sono raggruppati in due tipologie:
,QGLFL
• gli
alias indici di ricerca per
categorie, per soggetti o per argomenti, indici ragionati,
subject directories, subject gateways, etc.
!! • i
alias indici di ricerca per termini o
per parole, search engine, robot, spider, etc.
Indici sistematici
Gli
indici
sistematici
sono
siti
Indici e motori presuppongono
un diverso approccio alla ricerca
0RWRUL
• ricerca per argomento
• ricerca per parola
• ricerca nei titoli e, a
volte, negli abstract
e/o recensioni delle
pagine indicizzate
• ricerca nel testo
completo delle pagine
indicizzate (full-text)
Si può interrogare un indice:
Web
che
selezionano gli altri siti e li organizzano all’ interno
di un sistema di classificazione gerarchica allo
scopo di facilitare il recupero dell’ informazione da
• navigando da una categoria all’ altra fino a
giungere al “soggetto” cercato
• ricercando per parole
parte del ricercatore.
Colleghiamoci ad un indice
Ed ora vediamo la versione italiana
Yahoo!
Yahoo! Italia
http://www.yahoo.com/
http://it.yahoo.com/
Evelina Ceccato - dicembre 2002
2
La ricerca dell’informazione nel Web: Indici e
motori
Diversi tipi di indici
È utile interrogare un indice quando:
• Generali (Yahoo!)
• Generali, curati da bibliotecari universitari
(Infomine http://infomine.ucr.edu/) o di biblioteche
pubbliche (Librarians’ Index to the Internet
http://lii.org/), etc.
• Specializzati in un determinato settore
(SOSIG http://sosig.ac.uk/)
• Con recensioni e valutazioni (The Argus
Clearinghouse http://www.clearinghouse.net/)
• Organizzati per classi biblioteconomiche
(BUBL http://www.bubl.ac.uk/)
Alcuni esempi
• %8%//,1.
http://bubl.ac.uk/link/
• 7KH:::9LUWXDO /LEUDU\
http://vlib.org/
• ,QIRPLQH
• si cercano informazioni su un argomento che non
si conosce bene e del quale non si padroneggia la
terminologia
• si desidera “esplorare” un argomento generale o si
cercano informazioni di ogni tipo su un argomento
• si vuole sapere quali sono le risorse dedicate ad un
certo settore disciplinare
• si cerca un database specializzato (invisible Web)
Caratteristiche degli indici
" # $%&
•
Selezionate da persone (+ o - esperte): pro e contro del “filtro
umano”
•
Spesso valutate e aggiornate, ma non sempre
•
Spesso organizzate in categorie ordinate gerarchicamente
•
Archivio relativamente piccolo (no full-text)
•
Una stessa voce, una stessa pagina, in più punti dello schema
(ipertestualità)
•
http://infomine.ucr.edu/
I motori di ricerca
Sono strumenti che raccolgono automaticamente,
grazie ad appositi programmi, centinaia di milioni
di pagine web ed offrono la possibilità di ricercare
all’ interno dei loro archivi (daabase) nei quali,
talvolta, sono conservati anche i messaggi dei
Presentazione dei risultati
–
semplice elenco
–
descrizione e valutazione delle risorse
Il funzionamento dei motori
Il funzionamento di un motore può essere schematizzato in 4 fasi:
1.
2.
3.
4.
acquisizione delle pagine
indicizzazione dei documenti
interrogazione
presentazione dei risultati
newsgroup.
Evelina Ceccato - dicembre 2002
3
La ricerca dell’informazione nel Web: Indici e
motori
Più in dettaglio…
1. acquisizione delle pagine: gli ' (!) *+, ' seguono i link delle
pagine già presenti nel database ed archiviano le nuove pagine
recuperate
2. indicizzazione delle pagine: avviene in modo automatico e
si basa, generalmente, sul full-text, sui campi delle pagine
HTML e sui metatag. I metatag sono delle informazioni che
vengono inserite, dall’ autore, nell’ intestazione (HEAD) delle
pagine Web e sono relative, per esempio, all'
autore o al
contenuto della pagina, oppure indicano una serie di parole
chiave associate al documento [AUTHOR GENERATOR ROBOT TITLE
DESCRIPTION KEYWORD sono i metatag più comuni]
3. interrogazione: da parte dell’ utente
4. presentazione dei risultati: in base a tecniche statistiche
Possibilità di ricerca offerte dai motori
• Ricerca semplice e/o avanzata
• Ricerca per parola, frase, stringa
• Possibilità di limitare la ricerca per:
–
–
–
–
–
–
–
–
tipo di documento (testo, immagine, MP3, video, etc.)
lingua del documento
formato del documento (HTML, PDF, Word, etc.)
data
campo
dominio
ricerca di link ad una determinata URL
ricerca di pagine simili
AltaVista
Proviamo ad interrogare un motore:
AltaVista
http://it.altavista.com/
http://www.altavista.com/
riepilogo funzionalità
• 3 maschere di ricerca: semplice, maggior precisione
(ALL/AND, frase, ANY/OR, NOT), avanzata
• ricerca Web, immagini, MP3, video, directory
• ricerca semplice e maggior precisione
– ricerca limitata a -
• ricerca avanzata:
./- - 021 3 450 67/098 : - ; 3 1 ;
e 3 1 6<
./;
– maggior precisione + booleani (sintassi all’ URL:
http://it.altavista.com/help/adv_search/syntax) + ranking
– limiti per:
•
•
•
•
•
data
tipo di file (HTML, PDF)
dominio
solo all’ interno di un sito
comprimi sito: max 2 risultati per sito
Google
Ed ora vediamone un altro
Google
http://www.google.it/
riepilogo funzionalità
• 2 maschere di ricerca: semplice, avanzata
• ricerca Web, immagini, gruppi (newsgroup), directory
• ricerca semplice
– ricerca limitata a =?> @A B C DE F D
– opzione G$FH > IC JK JL C MIDC JN
• ricerca avanzata:
– ALL/AND, frase, ANY/OR, NOT
– limiti per:
•
•
•
•
•
lingua
tipo di file (HTML, PDF, post-script, Word, Excell, PowerPoint, RTF)
data
campo
dominio
– cerca pagine simili
– cerca i link ad una pagina
Evelina Ceccato - dicembre 2002
4
La ricerca dell’informazione nel Web: Indici e
motori
Presentazione dei risultati
Risultati diversi per motori diversi
I risultati di una ricerca vengono spesso ordinati
IN BASE ALLA RILEVANZA
AltaVista
Google
http://it.altavista.com/ http://www.google.it/
RELEVANCE RANKING
ALGORITMO
O 1 PRQ7/;S60T1 6$; U/U/Q67/1 VQW1VX1 - QX1; 7/0S- - ;9- 1RU/QXW1 3RXQ3 QPR;S6VQYX; 6ZR1 6<
È utile interrogare un motore quando
Statistiche e classifiche
• si desidera la risposta ad una domanda precisa
• si cercano informazioni su un argomento
circoscritto, insolito, misconosciuto
http://www.motoridiricerca.it/classi.htm
• si possono utilizzare termini di ricerca non
comuni, specifici
• si cercano nomi propri
Vivísimo
Meta-motori
http://www.vivisimo.com/
Consentono d’ interrogare, spesso simultaneamente, diversi
motori ed indici sistematici. I meta-motori non hanno un
proprio archivio di pagine Web, ma utilizzano quelli dei singoli
motori.
Ci sono tantissimi meta-motori, ma quelli utili hanno le seguenti
funzionalità:
– accettano ricerche complesse
– schiacciano i risultati eliminando le ripetizioni
– presentano i risultati in base a tecniche di ranking oppure li
raggruppano per soggetto/argomento ([\ ]'^ +,) _` )
Evelina Ceccato - dicembre 2002
•
Organizza, automaticamente, i risultati dell’interrogazione simultanea di diversi
motori e indici sistematici in base alle URL, ai titoli ed alle brevi descrizioni
delle risorse Internet.
In pratica, Vivísimo funziona in questo modo:
1. interroga uno o più motori o indici
2. analizza i risultati e li raggruppa,automaticamente, in base alle URL, ai titoli
ed alle descrizioni
3. presenta i risultati in cartelle simili a quelle di Windows
Funziona solamente su documenti testuali.
Vivísimo offre due possibilità di ricerca: semplice ed avanzata.
Ricerca semplice:
– Ricerca automatica in AND
– supporta
, le virgolette per le frasi e per il NOT
•
ab
Ricerca avanzata:
cd
e
– Ricerca per campo
– Uso dei booleani e delle parentesi
– Varie possibilità di limitare la ricerca e di visualizzare i risultati
5
La ricerca dell’informazione nel Web: Indici e
motori
Copernic
Ixquick
http://www.copernic.com/
Si tratta di un software da scaricare ed installare.
Offre una versione gratuita, Copernic Agent Basic, che interroga circa 90 risorse,
tra motori ed indici sistematici, raggruppati in 10 categorie.
Le versioni a pagamento, Copernic Agent Personal e Copernic Agent Professional,
raggruppano le circa 1000 risorse interrogabili in 120 categorie.
•
•
•
•
•
•
•
f MIgF JIFh> E E Dji> L H F JI>k%DH F lm
interroga simultaneamente i motori di ricerca
supporta la ricerca per ALL, ANY e per frase
elimina i risultati doppi ed i collegamenti non attivi
i risultati sono disponibili in 3 formati: standard, compatto, dettagliato
i risultati possono essere ordinati in diversi modi (per punteggio, per titolo, per
data, per motore, etc.)
i risultati possono essere filtrati per STATUS (pagine già viste, nuove, etc.), per
locazione geografica, per dominio
si può raffinare la ricerca all’ interno dei risultati
Dove i motori non cercano:
,/:(%,19,6,%,/(
,QYLVLEOH :HEn
'HHS :HE
http://ixquick.com/
• Ricerca documenti testuali, immagini, MP3, news;
• interroga simultaneamente i motori di ricerca;
• traduce semplici stringhe di ricerca nella sintassi utilizzata dai
singoli motori;
• supporta i booleani e la ricerca per frasi;
• elimina i duplicati;
• assegna una stella ad un sito per ogni motore di ricerca che lo ha
classificato nelle prime dieci posizioni;
• dà priorità ai siti che compaiono tra i primi dieci risultati di ogni
motore.
Cos’ è il Web invisibile?
Contenuti di database interrogabili via Web
I risultati delle interrogazioni sono pagine Web generate
dinamicamente e non archiviate in nessun luogo
Esempio: i cataloghi in linea delle biblioteche (OPAC)
Pagine escluse dall’ indicizzazione dei motori
I motori possono scegliere di non includere pagine non
scritte in linguaggio HTML oppure pagine costituite
interamente da immagini
Esempio: documenti scritti in PDF o in Word
Come ricercare nel Web invisibile?
E ancora …
The Invisible Web Catalog
http://www.invisibleweb.com/
Collezione di oltre 10.000 database interrogabili
Google oppure Yahoo!*
Combinare il/i termini ricercati con la parola *
o^ o pSoS'+
Complete Planet
http://www.completeplanet.com/
Collezione mista di database interrogabili, pagine Web
con maschera di ricerca e pagine Web statiche
Evelina Ceccato - dicembre 2002
*Yahoo! Utilizza il termine
qrs rturv w
per descrivere gli archivi interrogabili recensiti
6
La ricerca dell’informazione nel Web: Indici e
motori
Ed ora … BUONA RICERCA
e se volete ancora un aiuto … eccovi un ottimo tutorial
6HDUFKVWUDWHJLHV
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/Strategies.html#Recommend
Criteri per il relevance ranking
xRy z {|zu}~u
numero di occorrenze dei termini utilizzati per la ricerca
all’interno della singola pagina recuperata.
€jz } ‚ ƒ „
Appendici
rapporto fra il numero di occorrenze dei termini
all’interno della pagina e il totale delle parole contenute
nella pagina.
…jy ‚ ƒ „
†‡ˆŠ‰ y z  z }~u
‹Ry ‡   ‚ ˆ ‚ ƒ „
‹ ‡  ‚ ~u‚ ‡ }z
Œ ‚ ‡ y } ˆ zu}ƒ ‡
ordine in cui sono stati immessi i termini nel form di
ricerca.
‹ ‡‰‡Ž y ‚ ƒ „
/y ‚   ~u‚ ‡ }z
Fonte: Ridi, Riccardo
presenza dei termini in particolari zone della pagina […]
a parità di requisiti, alcuni motori privilegiano le pagine
più recenti
numero dei link "in entrata" provenienti da altre pagine
contenute nel database del motore e numero delle
selezioni della pagina effettuate dagli utenti a partire
dalle schermate di risposta del motore. […]
Altavista ha recentemente annunciato che sarà possibile,
pagando, garantire una posizione di rilievo alle proprie
pagine nella schermata di risposta.
‘ ’ “ ” •– — ’ ˜ –u™ ’ “ š ’ – › ˜ – œ – “  š“ ˜ ž – “ ž šŸ ˜ ˜ — ¡ “ •š ¢ ˜ ¡ — ˜ £S£S£
Evelina Ceccato - dicembre 2002
•
•
•
•
•
•
•
•
•
•
•
Versione 2.1 (2000-08-06)
presenza, nella pagina, di più d'
uno dei termini richiesti
o addirittura di tutti.
presenza, nella pagina, di più d'
uno dei termini richiesti
- o addirittura di tutti - nella medesima frase o
comunque vicini fra loro.
Riepilogo dei criteri per il relevance ranking
Criteri per il relevance ranking 2
‹Ry ‚ ‡ y ‚ ƒ „
rapporto inverso fra il numero di occorrenze dei termini
utilizzati per la ricerca all’interno del database del
motore e il totale delle parole contenute nel database
stesso. Alcuni motori dispongono anche di una lista di
stopwords che vengono ignorate.
Frequenza: numero di occorrenze
Densità: numero di occorrenze / parole totali del documento
Rarità: 1 / (numero di occorrenze nella base dati / parole totali della base dati)
Compresenza (default solitamente OR)
Prossimità: parole vicine fra loro nel documento
Posizione: parole nei titoli di sezioni (<H>), nei link (<A HREF>), nelle
intestazioni (<HEAD>) e in particolare nel titolo (<TITLE>) o in altri metatag
come "keyword" e "description"
Aggiornamento: documenti più recenti
Popolarità
Sponsorizzazione
Analisi di citazione (Google, progetto Clever): utilizzo di un algoritmo che
considera il numero di link al documento, distinguendo fra repertori (hub) e fonti
primarie (authority), con risultati brillanti
Somiglianza delle parole con quelle di documenti già rintracciati
Fonte: Gnoli, Claudio
¤u– “ ž š “ –˜ — ¡ “ •š ¢ ˜ ¡ — ˜ ˜ —¥ — ’ – “ — – ’ ¦ ™ ’ “ ” •– — ’ ˜ –u™ ’ “ š ’ – › ˜ –
Versione 2.2 (2000-05-28)
7
La ricerca dell’informazione nel Web: Indici e
motori
Indici e motori a confronto
§S¨©ª «ªj¬­®¯%¨°ª «ª
±³²°²´ ª
•
Ricerca per argomento
•
Ricerca per parola
•
Basso richiamo / Alta precisione
•
Alto richiamo / Bassa precisione
•
Selezione “umana” delle risorse
•
Raccolta automatica delle risorse
•
Archivio piccolo
•
•
Ricerca nei titoli e, a volte, negli
abstract e/o recensioni
•
Risultati in ordine alfabetico
Se volete saperne di più… in linea
•
µY¶ · ¸¹/º »· ¸Y¼½R¾9¿¸· º ÀSÁ
<http://www.altavista.wwmind.com/education2/index.php3>
• Bergman, Michael K.,  à Ä!½ÄÄ ÅÆTÄÇÈ/»¾É ÊS¸¿9º ÁË$ÃRº ½ ½ ÄÁT̸¶ ¾SÄ ,
<http://www.brightplanet.com/deepcontent/Tutorials/DeepWeb>
•
Í!º Á ½Rº ÁËÏÎu·RÐWÁ¶ º Á Ä9ÈÆTÄÇÒÑĸ Éu¿ÃÒÑR· Éu¸· Ä Ëº Ä»
Archivio enorme
•
ÓÒ
Õ ¾ º ½ ¸2¿À9Ô%Ŋ¶ Ä· ¸2¸RºSÔTÀ · ÀSɺ ½RºSɺ ¿ÄÉu¿¸
•
Ricerca full-text
•
ÓÒ¾ º ½ÄRÅÄɊ¶ ¸Tɺ ¿ÄÉu¿¸Ïº ÁYÎ Á· ÄÉuÁÄ·
a cura di Maria Teresa Pesenti
<http://www.aib.it/aib/lis/motori.htm>
•
Risultati ordinati in base ad un
“relevancy ranking algorithm”
•
ÂÕ ÃĊÖ?¸ × ÀSÉjÑRĸ É¿ÃY¼Á˺ ÁÄ»
•
ØÄ»ŠÔTÀ · Ä9¾9É »½Ä!ÉuÄ¿ÃÄÉu¿Ã ÄYÈ Ê À9Á¿· º À9ÁS»ŠÄ·R¶ ¸ Á˸ËÄ»Š½jÙ º Á· ÄÉuÉÀ˸· º ÀSÁ
<http://home.sprintmail.com/~debflanagan/main.html>
http://www.motoridiricerca.it/index.htm>
http://searchenginewatch.com/facts/major.html>
<http://pages.infinit.net/duvalm/dossiers/moteurs_de_recherche.html>
Se volete saperne di più… a stampa
•
•
BASILI, Carla [1995] La ricerca "per soggetto" dell'
informazione in Internet,
"Biblioteche oggi", XIII, 6, p. 40-47.
Giovanna [1997] ÚRÛÜjwÛÝ Þ w ßs rÝ v Þs Ý rÞÜjÛs ÛÝ ÞqÞÝ Þ à w Ý à rá9âßr
ã GRIFONI,
rßÛÝ rÜjÞ à rv ä åSæ Þv s Ý äÜjw ßs ÞqÞÝ w à ä ã w Ý Ûjqwuæ æ w%Þ ß çuÛÝ Ürè Þ ÛßÞÞ ßé ßs w Ý ßwus , “ Biblioteche
oggi” , XV, 5, pp. 10-16, oppure <http://www.burioni.it/forum/grif-mot.htm>.
•
•
•
é ßs w Ý ßwus , Milano, Jackson libri (Tit. orig.: êëwÒìëÛæ w!é ßs w Ý ßwus á
âv w ÝSí v å9äÞ qwî$à rs ræ Û å , 2 ed., Sebastopol (Cal.), O’ Reilly, 1994).
LESK, Michael [1997] ïRÞ tæ Þ Ûs w à ëwqÞ å9Þ s ræ Þ , “ Le Scienze” , 350 (ottobre), pp. 66-68.
LYNCH, Clifford [1997] ð9r2Ý Þ à w Ý à rTv äWé ßs w Ý ßw s , “ Le Scienze” , 350 (ottobre), pp.
KROL, Ed [1994]
60-64.
é ßs w Ý ßwus Þ ßTtÞ tæ Þ Ûs w à r
•
RIDI, Riccardo [1996]
biblioteconomia ; 51).
•
SALARELLI, Alberto [1997]
ñ!ñ!ñ
, Milano, Bibliografica (Bibliografia e
, Roma, AIB (Enciclopedia tascabile ; 11).
Evelina Ceccato - dicembre 2002
8