Informatica - SL-Lab

Transcript

Informatica - SL-Lab
Laboratorio di Informatica
Basi di dati
Ricerca di informazioni
Informatica
• Risorse per la scienza
Lezione VI
• strumenti per
Worl Wide WEB e
Ricerca di informazioni
AA 2006/07
Tossicologia
Informatica
Ricerca di Informazioni
1
•
•
•
•
• Spesso raccolti all’interno di data base
• Disponibili anche in forme meno
organizzate
AA 2006/07
Tossicologia
• Molti DBMS sono accessibili mediante
browser
• l’interfaccia è come quella del Web ma
l’organizzazione interna è quella del DBMS
• Molti siti Web sono organizzati in modo
dinamico e si appoggiano su DBMS
• più facile l’aggiornamento
• più facile la gestione
• l’informazione è visibile solo su richiesta
3
2
Informatica
Ricerca di Informazioni
Ricerca sul Web
Informazioni e WEB
AA 2006/07
Tossicologia
raccolta e organizzazione delle informazioni
ricerca delle informazioni
visualizzazione
Analisi
Informatica
Ricerca di Informazioni
• La ricerca delle informazioni disponibili sul
Web viene svolta mediante
• directory o cataloghi accessibili da Portali
• (elenchi ragionati di siti)
• www.yahoo.com, www.looksmart.com, www.lycos.com
• motori di ricerca
• www.google.com, www.altavista.com, www.excite.com,
www.arianna.it, www.northernlight.com
• motori di clustering
• www.vivisimo.com
AA 2006/07
Tossicologia
Portali WEB
4
Informatica
Ricerca di Informazioni
www.yahoo.com
Sono cataloghi ragionati di siti; hanno l’aspetto di una
rivista da sfogliare e permettono di:
• Cercare informazioni generali nella pagina principale
• Usare le varie directory fino a trovare l’argomento
desiderato
• Usare parole chiave nella ricerca
• Per sondare automaticamente le sottodirectory del portale
• Spesso offrono anche un servizio di posta elettronica
• Portali comuni:
• www.yahoo.com www.netscape.com
www.lycos.com
• Portali specializzati trattano argomenti specifici
• Finanza, sport, informazione
• Anche il sito www.unimi.it può essere visto come un portale
AA 2006/07
Tossicologia
AA 2001/02
©Capra, Lanzavechia, Rosti
5
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
6
Informatica
Ricerca di Informazioni
1
Laboratorio di Informatica
Basi di dati
Il sito dell’università
Motori di ricerca
• Consentono di trovare specifici documenti
tramite uso di parole chiave
• Le “query” vengono formulate sulla base di
parole chiave combinate secondo le regole
della logica booleana (chiavi di ricerca)
• AND, OR, NOT
• Operatori AND e OR impliciti
• es.: excite interpreta lo spazio come OR
• es.: google interpreta lo spazio come AND
• Formule ed esatte sequenze di parole
• solitamente parole tra “”
AA 2006/07
Tossicologia
7
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
Ricerca sul WEB
•
8
Informatica
Ricerca di Informazioni
Ricerca sul Web
Ricerca di “laboratorio di Informatica”
• Cercando laboratorio e/o informatica
• Criteri di valutazione dei motori di ricerca
• 1’729’615 url con altavista
• 1’100’000 url con google
• metodo di costruzione della base di dati del
motore e metodo di indicizzazione dei dati
• Cercando laboratorio + informatica
• 195’214 url con altavista
• 288’000 url con google
• Cercando “laboratorio di informatica”
• 20’763 url con altavista
• 19’200 url con google
• Cercando “laboratorio di informatica” + biotecnologie
• 7 url con altavista
• 806 url con google
• Cercando “laboratorio di informatica” + “università di Milano” +
biotecnologie
• 0 url con altavista
• 76 url con google
AA 2006/07
Tossicologia
9
Informatica
Ricerca di Informazioni
• libero invio di URL
• indicizzazione del testo completo o del solo URL
e descrizione sommaria del testo
• strategia di classificazione dei risultati (ranking)
• esame automatico e comprensivo del web
• frequenza dell’aggiornamento della base di dati
AA 2006/07
Tossicologia
Ricerca sul Web
• più di 1 miliardo di URL
• pagine classificate in base al numero di link
da altre pagine
• vivisimo
• motore di clustering
• semplifica l’analisi dei risultati di una ricerca
• just in time conceptual hierarchical document
clustering
• organizza i risultati combinati delle ricerche di un insieme di
motori in gruppi
• la creazione dei gruppi si basa su definizioni semplici e
“sensate”
• i gruppi sono popolati sulla base dell’analisi dei titoli, URL e
brevi descrizioni dei documenti
• i componenti di un gruppo sono classificati gerarchicamente
• link da pagine a loro volta molto collegate sono
valutati di più che da pagine isolate
• caching delle pagine
• pagine accessibili anche in caso di server offline
AA 2001/02
©Capra, Lanzavechia, Rosti
11
Informatica
Ricerca di Informazioni
Ricerca sul Web
• Google
AA 2006/07
Tossicologia
10
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
12
Informatica
Ricerca di Informazioni
2
Laboratorio di Informatica
Basi di dati
Esempio di ricerca con vivisimo
Ricerca sul Web
Applicazioni scientifiche:
• Ricerca di letteratura scientifica
• distinguere tra letteratura “refereed” e
libera pubblicazione (vedi prossima slide)
• Ricerca di dati
• definizione uniforme (nomenclatura)
• formato dei dati
AA 2006/07
Tossicologia
13
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
Letteratura scientifica
14
Informatica
Ricerca di Informazioni
Articoli scientifici
• Importanza della letteratura refereed
• Le riviste scientifiche sottopongono ogni articolo
all’approvazione di esperti del settore
• Ognuno è libero di scrivere una pagina di un sito WEB
• Esistono molte pagine WEB di università o enti di ricerca
contenenti corsi-on line e materiale didattico
• Controllare l’attendibilità dell’autore e l’aggiornamento della
pagina
• Esistono data base specifici per la letteratura
• Data base diversi a seconda del campo:
• Fisica, biologia, medicina, storia, economia ..
• Spesso offrono servizi solo per gli abbonati
• Sono accessibili dal personale delle università e degli istituti
scientifici.
AA 2006/07
Tossicologia
15
Informatica
Ricerca di Informazioni
Dagli estremi si ricerca l’articolo
AA 2006/07
Tossicologia
AA 2001/02
©Capra, Lanzavechia, Rosti
17
Informatica
Ricerca di Informazioni
• Gli articoli scientifici vengono citati secondo una
prassi consolidata:
• Nome degli autori, anno di pubblicazione, titolo dell’articolo,
Rivista di pubblicazione, numero del volume, pagine.
• Queste voci guidano successivamente la ricerca sul data
base
• Esempio:
Parker MW, Buckley JT, Postma JP, Tucker AD,
Leonard K, Pattus F, Tsernoglou D.
Structure of the Aeromonas toxin proaerolysin in its
water-soluble and membrane-channel states.
Nature. 1994 Jan 20;367(6460):292-5.
AA 2006/07
Tossicologia
16
Informatica
Ricerca di Informazioni
Tutti possono vedere il riassunto
AA 2006/07
Tossicologia
18
Informatica
Ricerca di Informazioni
3
Laboratorio di Informatica
Basi di dati
Le ricerche avvengono tramite
Banche dati
Avendo l’abbonamento si ottiene
l’intero articolo
AA 2006/07
Tossicologia
Informatica
Ricerca di Informazioni
19
AA 2006/07
Tossicologia
• Si utilizzano gli attributi usati per la
schedatura degli articoli
• Autori-rivista-titolo-anno di pubblicazione
• Oppure si cercano parole entro le
relative istanze
• Titolo contenete le parole: ----• Riassunto contenente le parole:----
Informatica
Ricerca di Informazioni
21
• Per affinare le ricerche, si utilizzano più criteri, che
vengono composti usando “operatori logici”
• AND
• OR
• NOT
• Date due serie di tuple:
• tuple che soddisfano il criterio X
• tuple che soddisfano il criterio Y
• Si passano a considerare le tuple che soddisfano:
•
•
•
•
AA 2006/07
Tossicologia
•
•
•
•
Informatica
Ricerca di Informazioni
• NOT 1 = 0
• NOT 0 = 1
• OR
• XOR
•
•
•
•
•
•
•
•
0 OR 0 = 0
0 OR 1 = 1
1 OR 0 = 1
1 OR 1 = 1
AA 2001/02
©Capra, Lanzavechia, Rosti
22
• NOT
0&0=0
0&1=0
1&0=0
1&1=1
AA 2006/07
Tossicologia
X AND Y
X OR Y
X AND/OR (NOT Y)
Ecc.
Risorsa libera Pubmed (NCBI)
Tavole di verità
• AND (&)
Informatica
Ricerca di Informazioni
Composizione di parametri
Query su letteratura
AA 2006/07
Tossicologia
20
23
0 XOR 0 = 0
1 XOR 0 = 1
0 XOR 1 = 1
1 XOR 1 = 0
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
24
Informatica
Ricerca di Informazioni
4
Laboratorio di Informatica
Basi di dati
Ricerca dell’Aerolysina
Parametri della ricerca
154 articoli con la parola
Aerolysin nel titolo/abstract
titolo/abstract
Autori
Titolo
Abstract
Anno di
pubblicazione
Rivista (journal)
Volume
AA 2006/07
Tossicologia
25
Informatica
Ricerca di Informazioni
12 articoli tra i precedenti
scritti da Parker
AA 2006/07
Tossicologia
Scheda dell’articolo
26
Informatica
Ricerca di Informazioni
Ricerca di dati
• I dati a disposizione sono moltissimi e
spaziano argomenti diversi
• Occorre avere idea di cosa cercare e
anche di cosa offre il WEB
• Molti siti sono ad accesso libero
• Alcuni offrono servizi solo ad utenti
registrati
AA 2006/07
Tossicologia
27
Informatica
Ricerca di Informazioni
Ricerca sul WEB
AA 2006/07
Tossicologia
28
Informatica
Ricerca di Informazioni
http://www.biblavoro.cimedoc.uniba.it/banche1.htm
• Banche dati di interesse scientifico
• Quasi tutte le banche dati sono su siti in lingua
inglese
• Da pagine italiane si trovano però elenchi di siti.
• http://www.biblavoro.cimedoc.uniba.it/banche1.htm
(Sito dell’università di Bari)
• http://www.interchimico.chin.unipd.it/risorse/link1.htm
(sito dell’università di Padova)
• Attenzione ai link scaduti
AA 2006/07
Tossicologia
AA 2001/02
©Capra, Lanzavechia, Rosti
29
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
30
Informatica
Ricerca di Informazioni
5
Laboratorio di Informatica
Basi di dati
http://www.interchimico.chin.unipd.it/risorse/link1.htm
AA 2006/07
Tossicologia
31
Informatica
Ricerca di Informazioni
National Institute of Standards and Technology
AA 2006/07
Tossicologia
NIST chemistry web-book
32
Informatica
Ricerca di Informazioni
Ricerca nel data base
Ricerca per formula
o per nome
Inserite la formula bruta
Indicate le informazioni
che desiderate vedere
AA 2006/07
Tossicologia
33
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
34
Informatica
Ricerca di Informazioni
Scheda dell’aspirina
Ricerca dell’aspirina
Per l’aspirina: C9H8O4
esistono 16 isomeri
AA 2006/07
Tossicologia
AA 2001/02
©Capra, Lanzavechia, Rosti
35
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
36
Informatica
Ricerca di Informazioni
6
Laboratorio di Informatica
Basi di dati
T transizione Acetilene
AA 2006/07
Tossicologia
37
Informatica
Ricerca di Informazioni
Cp Acetilene
AA 2006/07
Tossicologia
Stima di Cp empirica
AA 2006/07
Tossicologia
39
Informatica
Ricerca di Informazioni
Integrated Risk Information System
38
Informatica
Ricerca di Informazioni
Grafico da fare con Excel
AA 2006/07
Tossicologia
40
Informatica
Ricerca di Informazioni
Integrated Risk Information System
Ricerca per:
• sostanza
• Ogni sostanza ha una sua scheda
• CASRN (Chemical Abstract Service registry
number)
• parole chiave
• Effetti tossici
• Potere cancerogeno
Data base scaricabile
glossario
AA 2006/07
Tossicologia
AA 2001/02
©Capra, Lanzavechia, Rosti
41
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
42
Informatica
Ricerca di Informazioni
7
Laboratorio di Informatica
Basi di dati
Cartella sull’Amianto
Toxnet
• Collegamento a diversi data-base:
•
•
•
•
•
Sostanze pericolose (HSDB)
Integrated risk inform. System (IRIS)
Data base multipli
Data base bibliografici
Risorse integrate su internet
• Pubmed
• Haz map (mappa dei rischi)
AA 2006/07
Tossicologia
43
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
45
Informatica
Ricerca di Informazioni
AA 2006/07
Tossicologia
AA 2001/02
©Capra, Lanzavechia, Rosti
47
Informatica
Ricerca di Informazioni
46
Informatica
Ricerca di Informazioni
HAZ-MAP
Ricerca incrociata: lavoro - sintomi
AA 2006/07
Tossicologia
Informatica
Ricerca di Informazioni
Amianto
TOXNET
AA 2006/07
Tossicologia
44
AA 2006/07
Tossicologia
48
Informatica
Ricerca di Informazioni
8
Laboratorio di Informatica
Basi di dati
NIST – costanti fisiche
AA 2006/07
Tossicologia
AA 2001/02
©Capra, Lanzavechia, Rosti
49
Informatica
Ricerca di Informazioni
9