Risorse per la ricerca on-line

Transcript

Risorse per la ricerca on-line
Risorse per la ricerca
online
Tirocinio Formativo Attivo
Anno Accademico 2014-2015
Classe A-051 e A052
Geografia e laboratorio di informatica
I motori di ricerca
• Il motore di ricerca è un server che
periodicamente ispeziona i documenti residenti
sulla rete e li indicizza in base al loro contenuto
e alla struttura dei loro link
• Un motore di ricerca fornisce un servizio di ricerca
sulla rete per parole chiave fornite dall’utente
• Ogni ricerca produce una lista di link (ordinata
per rilevanza) ai documenti contenenti quelle
parole chiave
2
I motori di ricerca
– http://www.google.com/
– http://www.bing.com
– http://www.altavista.com/
– http://www.yahoo.com/
– http://www.excite.com/
– http://www.lycos.it/
– http://www.virgilio.it/
– ...
3
I motori di ricerca: operatori
booleani
AND, +
Restringe il campo di ricerca
igiene AND dentale oppure +igiene +dentale
entrambi i termini devono
essere presenti (default di Google)
OR
Estende il campo di ricerca
igiene OR dentale
AND NOT, -
Restringe il campo di ricerca
Non è riconosciuto da tutti i motori
igiene AND NOT dentale oppure igiene -dentale
“”
le parole chiave si devono trovare di seguito
“igiene dentale”
4
MOTORI DI RICERCA: Google
• Settembre 1998, Menlo Park (CA): inizia la "Google
Story"
• Larry Page e Sergey Brin, due studenti di Stanford con il
pallino della matematica, avevano 25 anni quando nel
settembre del 1998 fondarono Google.
• Poco dopo aver fondato l’azienda, per mancanza dei
fondi necessari per l’acquisto di nuovi PC e di altro
materiale, cercarono di venderla per un milione di dollari
a diverse società finanziarie, oltre che a diretti
concorrenti come Altavista e Yahoo, ottenendo solo dei
rifiuti.
• Oggi Google vale oltre
100 miliardi di dollari
5
MOTORI DI RICERCA: Google
•
•
•
La loro “impossible mission” era trovare un modo di catalogare
tutte le informazioni presenti in internet e renderle rapidamente
e facilmente disponibili a tutti. E ovviamente di farlo meglio di
quanto già facessero Yahoo, Altavista, etc
La cosa più innovativa è stata sicuramente l’invenzione del
“PageRank”.
Il pagerank è un metodo per determinare “l’importanza” di una
pagina web. Mentre i motori esistenti, per indicizzare e
posizionare i siti web nei loro database, si limitavano a contare le
ricorrenze, nel testo delle pagine, dei termini cercati dagli utenti,
e quindi mostravano ai primi posti siti web non sempre pertinenti
con le informazioni desiderate, Page e Brin ebbero l’idea di
verificare e contare non solo le ripetizioni delle parole ma anche i
link che provenivano da altri siti e che puntavano ad una
determinata pagina. Il loro ragionamento era semplice: se un
certo sito è citato e consigliato da molti altri significa che ha dei
contenuti interessanti e quindi è giusto farlo vedere prima di altri.
6
MOTORI DI RICERCA: Google
•
•
•
•
In realtà il metodo adottato dai due studenti per calcolare il Page
Rank è molto più complesso ed articolato; non si limita a contare i
link ma tiene conto anche della “qualità” dei contenuti e
dell’importanza dei siti da cui provengono i link. Ad esempio, se il
sito della Microsoft consiglia o cita il mio sito, lo stesso acquista agli
occhi di Google un valore maggiore rispetto al sito di un concorrente
consigliato da un’azienda sconosciuta, e quindi avrà un PageRank
più elevato del concorrente.
Ci sono poi altri fattori che contribuiscono a determinare il
PageRank, come l’anzianità del sito, il numero dei visitatori, ecc..
Credo che nessuno li conosca tutti, anche se sono stati ormai scritti
migliaia di articoli e di libri sui “segreti del PageRank di Google”.
Ciò che conta è che gli utenti, usando Google, si rendevano conto
che era più facile e richiedeva meno tempo trovare le informazioni
desiderate e pertanto abbandonavano gli altri motori e
consigliavano agli amici e conoscenti di fare altrettanto.
7
MOTORI DI RICERCA: Google
• Oggi Google reperisce e gestisce le informazioni presenti su
internet grazie ad una propria rete composta da oltre
100.000 PC. Una potenza di calcolo che nessun’altra azienda
al mondo possiede.
• Google riesce parzialmente ad esplorare il DEEP WEB, ossia
quelle informazioni contenute nel web, ma non indicizzate dai
motori di ricerca e contenute nei database. Google riesce ad
indicizzare anche documenti in formati non testuali (PDF,
presentazioni, fogli di calcolo, immagini), ma si ferma (per
ora) di fronte ai contenuti audio e video.
• Google ha nel suo database oltre 8 miliardi di pagine web e
ogni giorno i suoi utenti effettuano 200 milioni di ricerche in
oltre 80 lingue. Attualmente è in atto il più ambizioso dei
progetti mai attuati: la digitalizzazione dei volumi di intere
biblioteche al fine di rendere il sapere umano alla portata di
tutti.
8
MOTORI DI RICERCA: Google
• Ma chi paga? Da dove provengono i soldi?
• Ma tutti questi miliardi di dollari da dove arrivano,
considerato che l’utilizzo di Google è gratuito?
• Chi paga?
• Questa è la domanda che spesso mi è stata posta da
clienti, amici e conoscenti, e sono certo che anche
molti di voi qualche volta se la saranno posta.
• La risposta è molto semplice: Google non fa pubblicità
a se stesso ma incassa molto per la pubblicità che fa
agli altri.
9
MOTORI DI RICERCA: Google
•
•
•
•
La pubblicità contestuale
Un’altra delle idee brillanti di Google è stata la pubblicità contestuale,
o mirata. Provate a immaginare… state guardando un film di
fantascienza alla TV e c’è un’interruzione pubblicitaria con uno spot
che parla di un fascicolo con DVD allegato, in edicola da domani; il
titolo è “ai confini della realtà” (un mito degli anni ’60 per gli amanti di
fantascienza).
Quanti di voi cambierebbero canale per evitare questa pubblicità?
Google fa la stessa cosa: se state cercando ad esempio “noleggio
macchine per caffè” vedrete sulla parte destra della pagina dei
risultati alcuni link pubblicitari di aziende che noleggiano macchine per
caffè o che vendono cialde di caffè. Le probabilità che questa
pubblicità dia fastidio sono quindi minime e nello stesso tempo, le
probabilità che qualcuno clicchi su questi link sono alte.
• Questo consente a Google di far accettare ai suoi inserzionisti di
pagare un “tot” per click più elevato rispetto a ciò che pagherebbero
per la stessa pubblicità inserita su siti o portali che parlano di calcio, di
libri, di corsi, di telefonini o di cronaca.
10
MOTORI DI RICERCA: Google
• Il sito di GOOGLE - un esempio da imitare
• Il sito di Google si presenta in modo spartano, senza
animazioni in flash, senza musichette, senza sfondi
multicolori, senza banner pubblicitari. Non c’è nulla
che possa distrarre l’utente, che lo costringa a
pensare dove cliccare. Ci sono soltanto informazioni.
Google sa cosa vogliono gli utenti e li accontenta.
• Pensate a quanti milioni di dollari Google sta
rinunciando pur di non "sporcare" e rendere pesante
la sua home page con l'inserimento di banner
pubblicitari statici o animati in Flash, come invece
fanno altri motori (MSN, YAHOO, ecc..).
11
GOOGLE: la ricerca
•
-
Ricerche di base
Operatore AND automatico;
Google ignora le “stop words”*
Google non supporta la ricerca di radici
di parole (per es. aziend*)
*Stop words o stopwords, è il nome dato alle parole che vengono filtrate a
priori o conseguentemente ad un processo di analisi dei testi di documenti
presenti in un data base, come ad esempio: - da, in, per, il, chi, su, ecc..
12
GOOGLE: la ricerca
• La ricerca avanzata:
13
GOOGLE: gli strumenti
•Google libri (http://books.google.it/)
Consente la ricerca e la lettura di libri
resi disponibili online dagli editori
aderenti all'iniziativa.
In alcuni casi, per motivi legali, viene
richiesta l’autenticazione per poter
leggere i libri trovati
14
Google libri
• I problemi incontrati sembrano essere fondamentalmente di
tre tipi:
• 1) quelli, ben noti, legati alle iniziative legali attraverso le
quali la Authors Guild e la Association of American
Publishers (oltre ad alcuni autori individuali) stanno
cercando di bloccare la digitalizzazione dei testi sotto diritti;
• 2) quelli, purtroppo assai meno noti, legati alle difficoltà
tecniche del progetto e alle caratteristiche degli strumenti
software e dei formati di codifica utilizzati;
• 3) quelli, ovviamente influenzati anche dalle prime due
tipologie, legati alla focalizzazione dell’esatta fisionomia del
progetto stesso.
15
GOOGLE: gli strumenti
•Google scholar (http://scholar.google.com/ )
-Che cos'è Google Scholar?
Google Scholar offre un modo semplice per effettuare un'ampia ricerca
sulla letteratura accademica. Con un unico servizio, puoi effettuare ricerche
tra molte discipline e fonti: documenti approvati per la pubblicazione, tesi,
libri, abstract e articoli di case editrici accademiche, ordini professionali,
database di studi non ancora pubblicati, università e altre organizzazioni
accademiche..
Funzioni di Google Scholar
Cerca in diverse fonti utilizzando un unico e pratico sito
Trova documenti, abstract e citazioni
Individua un documento completo nella tua biblioteca oppure sul web
Scopri documenti importanti in qualsiasi area di ricerca
Come vengono classificati gli articoli?
Google Scholar mira ad elencare gli articoli in base alla stessa
classificazione adottata dal mondo scientifico, ossia valutando il testo
completo di un articolo, l'autore, la pubblicazione in cui è riportato e il
numero di volte in cui viene citato in altri documenti accademici. I risultati
più pertinenti vengono sempre visualizzati nella prima pagina.
16
Liber Liber
• Liber Liber, è una o.n.l.u.s. (organizzazione non
lucrativa di utilità sociale) che ha come obiettivo la
promozione di ogni espressione artistica e
intellettuale. In particolare, Liber Liber si propone di
favorire l'utilizzazione consapevole delle tecnologie
informatiche in campo umanistico e di avvicinare la
cultura umanistica e quella scientifica.
• Grazie alla collaborazione di volontari e sponsor
come la E-text, i capolavori della letteratura e le altre
opere edite dal progetto Manuzio vengono prelevate
mensilmente da oltre 150.000 utenti / mese
• www.liberliber.it
• www.intratext.com
17
•
•
•
•
•
I metamotori
Un metamotore è un'interfaccia che svolge la sua interrogazione su
più motori di ricerca contemporaneamente.
L'utente digita il testo da cercare nel matamotore che lancia la
ricerca, collegandosi al sito di Google, Yahoo e altri, i quali inviano una
risposta che può essere direttamente presentata all'utente, oppure
filtrata secondo alcuni criteri, in primis l'eliminazione delle ripetizioni.
Il metamotore filtra i risultati forniti da più di un motore di ricerca, per
eliminare eventuali ripetizioni.
Una ricerca su un metamotore può coinvolgere più database insieme,
tanti quanti sono i database dei motori coinvolti. Questo è il principale
vantaggio di questo tipo di motori: raggiungere una quota maggiore
di siti della rete, rispetto all'interrogazione di un solo motore.
Come svantaggio bisogna evidenziare la mancanza di strumenti per la
ricerca avanzata, di cui sono invece dotati i singoli motori.
• http://www.metacrawler.com/ (zoo)
• http://www.ixquick.com/
18
1. GLI OPAC (Online Public Acess
Catalog)
• Sono risorse gratuite e quindi
consultabili anche al di fuori della
biblioteca
• Consentono di accertare l’esistenza di
documenti all’interno delle biblioteche
• La ricerca può avvenire per: autore,
parole del titolo, soggetti e voci di
classificazione Dewey
2. GLI OPAC e I METAOPAC
• L’OPAC è il catalogo di una biblioteca
• I metaOPAC permettono di
interrogare più cataloghi
contemporaneamente; la schermata
di interrogazione è simile a quella di
un opac con l’aggiunta di un elenco
delle biblioteche sulle quali verrà
effettuata la ricerca.
5. GLI OPAC: gli operatori
logici
• Di default gli OPAC compiono le
ricerche utilizzano l’operatore AND
• E’ possibile, però, compiere una
ricerca utilizzando anche gli operatori
“OR” e “NOT” e gli operatori di
prossimità “ADJ” e “WITH”
9.GLI OPAC di biblioteche
straniere
• Library of Congress on line Catalog
(http://catalog.loc.gov/)
• The British Library
(http://explore.bl.uk/primo_library/libw
eb/action/search.do?
dscnt=1&dstmp=1396614393748&vid
=BLVU1&fromLogin=true )
• Karlsruhe Virtual Catalog
(http://www.ubka.unikarlsruhe.de/kvk_en.html )
1. CATALOGHI COMMERCIALI
• Consentono di individuare libri e
riviste in commercio editi in Italia o
all’estero.
• E’ possibile visualizzare gli abstract,
gli indici dei volumi e talvolta anche
un capitolo di prova
2. CATALOGHI COMMERCIALI
• Cataloghi generali
- Amazon (http://www.amazon.com )
- IBS (www.ibs.it )
- Feltrinelli (http://www.lafeltrinelli.it/ )