Informatica - SL-Lab
Transcript
Informatica - SL-Lab
Laboratorio di Informatica Basi di dati Ricerca di informazioni Informatica • Risorse per la scienza Lezione VI • strumenti per Worl Wide WEB e Ricerca di informazioni AA 2006/07 Tossicologia Informatica Ricerca di Informazioni 1 • • • • • Spesso raccolti all’interno di data base • Disponibili anche in forme meno organizzate AA 2006/07 Tossicologia • Molti DBMS sono accessibili mediante browser • l’interfaccia è come quella del Web ma l’organizzazione interna è quella del DBMS • Molti siti Web sono organizzati in modo dinamico e si appoggiano su DBMS • più facile l’aggiornamento • più facile la gestione • l’informazione è visibile solo su richiesta 3 2 Informatica Ricerca di Informazioni Ricerca sul Web Informazioni e WEB AA 2006/07 Tossicologia raccolta e organizzazione delle informazioni ricerca delle informazioni visualizzazione Analisi Informatica Ricerca di Informazioni • La ricerca delle informazioni disponibili sul Web viene svolta mediante • directory o cataloghi accessibili da Portali • (elenchi ragionati di siti) • www.yahoo.com, www.looksmart.com, www.lycos.com • motori di ricerca • www.google.com, www.altavista.com, www.excite.com, www.arianna.it, www.northernlight.com • motori di clustering • www.vivisimo.com AA 2006/07 Tossicologia Portali WEB 4 Informatica Ricerca di Informazioni www.yahoo.com Sono cataloghi ragionati di siti; hanno l’aspetto di una rivista da sfogliare e permettono di: • Cercare informazioni generali nella pagina principale • Usare le varie directory fino a trovare l’argomento desiderato • Usare parole chiave nella ricerca • Per sondare automaticamente le sottodirectory del portale • Spesso offrono anche un servizio di posta elettronica • Portali comuni: • www.yahoo.com www.netscape.com www.lycos.com • Portali specializzati trattano argomenti specifici • Finanza, sport, informazione • Anche il sito www.unimi.it può essere visto come un portale AA 2006/07 Tossicologia AA 2001/02 ©Capra, Lanzavechia, Rosti 5 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 6 Informatica Ricerca di Informazioni 1 Laboratorio di Informatica Basi di dati Il sito dell’università Motori di ricerca • Consentono di trovare specifici documenti tramite uso di parole chiave • Le “query” vengono formulate sulla base di parole chiave combinate secondo le regole della logica booleana (chiavi di ricerca) • AND, OR, NOT • Operatori AND e OR impliciti • es.: excite interpreta lo spazio come OR • es.: google interpreta lo spazio come AND • Formule ed esatte sequenze di parole • solitamente parole tra “” AA 2006/07 Tossicologia 7 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia Ricerca sul WEB • 8 Informatica Ricerca di Informazioni Ricerca sul Web Ricerca di “laboratorio di Informatica” • Cercando laboratorio e/o informatica • Criteri di valutazione dei motori di ricerca • 1’729’615 url con altavista • 1’100’000 url con google • metodo di costruzione della base di dati del motore e metodo di indicizzazione dei dati • Cercando laboratorio + informatica • 195’214 url con altavista • 288’000 url con google • Cercando “laboratorio di informatica” • 20’763 url con altavista • 19’200 url con google • Cercando “laboratorio di informatica” + biotecnologie • 7 url con altavista • 806 url con google • Cercando “laboratorio di informatica” + “università di Milano” + biotecnologie • 0 url con altavista • 76 url con google AA 2006/07 Tossicologia 9 Informatica Ricerca di Informazioni • libero invio di URL • indicizzazione del testo completo o del solo URL e descrizione sommaria del testo • strategia di classificazione dei risultati (ranking) • esame automatico e comprensivo del web • frequenza dell’aggiornamento della base di dati AA 2006/07 Tossicologia Ricerca sul Web • più di 1 miliardo di URL • pagine classificate in base al numero di link da altre pagine • vivisimo • motore di clustering • semplifica l’analisi dei risultati di una ricerca • just in time conceptual hierarchical document clustering • organizza i risultati combinati delle ricerche di un insieme di motori in gruppi • la creazione dei gruppi si basa su definizioni semplici e “sensate” • i gruppi sono popolati sulla base dell’analisi dei titoli, URL e brevi descrizioni dei documenti • i componenti di un gruppo sono classificati gerarchicamente • link da pagine a loro volta molto collegate sono valutati di più che da pagine isolate • caching delle pagine • pagine accessibili anche in caso di server offline AA 2001/02 ©Capra, Lanzavechia, Rosti 11 Informatica Ricerca di Informazioni Ricerca sul Web • Google AA 2006/07 Tossicologia 10 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 12 Informatica Ricerca di Informazioni 2 Laboratorio di Informatica Basi di dati Esempio di ricerca con vivisimo Ricerca sul Web Applicazioni scientifiche: • Ricerca di letteratura scientifica • distinguere tra letteratura “refereed” e libera pubblicazione (vedi prossima slide) • Ricerca di dati • definizione uniforme (nomenclatura) • formato dei dati AA 2006/07 Tossicologia 13 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia Letteratura scientifica 14 Informatica Ricerca di Informazioni Articoli scientifici • Importanza della letteratura refereed • Le riviste scientifiche sottopongono ogni articolo all’approvazione di esperti del settore • Ognuno è libero di scrivere una pagina di un sito WEB • Esistono molte pagine WEB di università o enti di ricerca contenenti corsi-on line e materiale didattico • Controllare l’attendibilità dell’autore e l’aggiornamento della pagina • Esistono data base specifici per la letteratura • Data base diversi a seconda del campo: • Fisica, biologia, medicina, storia, economia .. • Spesso offrono servizi solo per gli abbonati • Sono accessibili dal personale delle università e degli istituti scientifici. AA 2006/07 Tossicologia 15 Informatica Ricerca di Informazioni Dagli estremi si ricerca l’articolo AA 2006/07 Tossicologia AA 2001/02 ©Capra, Lanzavechia, Rosti 17 Informatica Ricerca di Informazioni • Gli articoli scientifici vengono citati secondo una prassi consolidata: • Nome degli autori, anno di pubblicazione, titolo dell’articolo, Rivista di pubblicazione, numero del volume, pagine. • Queste voci guidano successivamente la ricerca sul data base • Esempio: Parker MW, Buckley JT, Postma JP, Tucker AD, Leonard K, Pattus F, Tsernoglou D. Structure of the Aeromonas toxin proaerolysin in its water-soluble and membrane-channel states. Nature. 1994 Jan 20;367(6460):292-5. AA 2006/07 Tossicologia 16 Informatica Ricerca di Informazioni Tutti possono vedere il riassunto AA 2006/07 Tossicologia 18 Informatica Ricerca di Informazioni 3 Laboratorio di Informatica Basi di dati Le ricerche avvengono tramite Banche dati Avendo l’abbonamento si ottiene l’intero articolo AA 2006/07 Tossicologia Informatica Ricerca di Informazioni 19 AA 2006/07 Tossicologia • Si utilizzano gli attributi usati per la schedatura degli articoli • Autori-rivista-titolo-anno di pubblicazione • Oppure si cercano parole entro le relative istanze • Titolo contenete le parole: ----• Riassunto contenente le parole:---- Informatica Ricerca di Informazioni 21 • Per affinare le ricerche, si utilizzano più criteri, che vengono composti usando “operatori logici” • AND • OR • NOT • Date due serie di tuple: • tuple che soddisfano il criterio X • tuple che soddisfano il criterio Y • Si passano a considerare le tuple che soddisfano: • • • • AA 2006/07 Tossicologia • • • • Informatica Ricerca di Informazioni • NOT 1 = 0 • NOT 0 = 1 • OR • XOR • • • • • • • • 0 OR 0 = 0 0 OR 1 = 1 1 OR 0 = 1 1 OR 1 = 1 AA 2001/02 ©Capra, Lanzavechia, Rosti 22 • NOT 0&0=0 0&1=0 1&0=0 1&1=1 AA 2006/07 Tossicologia X AND Y X OR Y X AND/OR (NOT Y) Ecc. Risorsa libera Pubmed (NCBI) Tavole di verità • AND (&) Informatica Ricerca di Informazioni Composizione di parametri Query su letteratura AA 2006/07 Tossicologia 20 23 0 XOR 0 = 0 1 XOR 0 = 1 0 XOR 1 = 1 1 XOR 1 = 0 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 24 Informatica Ricerca di Informazioni 4 Laboratorio di Informatica Basi di dati Ricerca dell’Aerolysina Parametri della ricerca 154 articoli con la parola Aerolysin nel titolo/abstract titolo/abstract Autori Titolo Abstract Anno di pubblicazione Rivista (journal) Volume AA 2006/07 Tossicologia 25 Informatica Ricerca di Informazioni 12 articoli tra i precedenti scritti da Parker AA 2006/07 Tossicologia Scheda dell’articolo 26 Informatica Ricerca di Informazioni Ricerca di dati • I dati a disposizione sono moltissimi e spaziano argomenti diversi • Occorre avere idea di cosa cercare e anche di cosa offre il WEB • Molti siti sono ad accesso libero • Alcuni offrono servizi solo ad utenti registrati AA 2006/07 Tossicologia 27 Informatica Ricerca di Informazioni Ricerca sul WEB AA 2006/07 Tossicologia 28 Informatica Ricerca di Informazioni http://www.biblavoro.cimedoc.uniba.it/banche1.htm • Banche dati di interesse scientifico • Quasi tutte le banche dati sono su siti in lingua inglese • Da pagine italiane si trovano però elenchi di siti. • http://www.biblavoro.cimedoc.uniba.it/banche1.htm (Sito dell’università di Bari) • http://www.interchimico.chin.unipd.it/risorse/link1.htm (sito dell’università di Padova) • Attenzione ai link scaduti AA 2006/07 Tossicologia AA 2001/02 ©Capra, Lanzavechia, Rosti 29 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 30 Informatica Ricerca di Informazioni 5 Laboratorio di Informatica Basi di dati http://www.interchimico.chin.unipd.it/risorse/link1.htm AA 2006/07 Tossicologia 31 Informatica Ricerca di Informazioni National Institute of Standards and Technology AA 2006/07 Tossicologia NIST chemistry web-book 32 Informatica Ricerca di Informazioni Ricerca nel data base Ricerca per formula o per nome Inserite la formula bruta Indicate le informazioni che desiderate vedere AA 2006/07 Tossicologia 33 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 34 Informatica Ricerca di Informazioni Scheda dell’aspirina Ricerca dell’aspirina Per l’aspirina: C9H8O4 esistono 16 isomeri AA 2006/07 Tossicologia AA 2001/02 ©Capra, Lanzavechia, Rosti 35 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 36 Informatica Ricerca di Informazioni 6 Laboratorio di Informatica Basi di dati T transizione Acetilene AA 2006/07 Tossicologia 37 Informatica Ricerca di Informazioni Cp Acetilene AA 2006/07 Tossicologia Stima di Cp empirica AA 2006/07 Tossicologia 39 Informatica Ricerca di Informazioni Integrated Risk Information System 38 Informatica Ricerca di Informazioni Grafico da fare con Excel AA 2006/07 Tossicologia 40 Informatica Ricerca di Informazioni Integrated Risk Information System Ricerca per: • sostanza • Ogni sostanza ha una sua scheda • CASRN (Chemical Abstract Service registry number) • parole chiave • Effetti tossici • Potere cancerogeno Data base scaricabile glossario AA 2006/07 Tossicologia AA 2001/02 ©Capra, Lanzavechia, Rosti 41 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 42 Informatica Ricerca di Informazioni 7 Laboratorio di Informatica Basi di dati Cartella sull’Amianto Toxnet • Collegamento a diversi data-base: • • • • • Sostanze pericolose (HSDB) Integrated risk inform. System (IRIS) Data base multipli Data base bibliografici Risorse integrate su internet • Pubmed • Haz map (mappa dei rischi) AA 2006/07 Tossicologia 43 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia 45 Informatica Ricerca di Informazioni AA 2006/07 Tossicologia AA 2001/02 ©Capra, Lanzavechia, Rosti 47 Informatica Ricerca di Informazioni 46 Informatica Ricerca di Informazioni HAZ-MAP Ricerca incrociata: lavoro - sintomi AA 2006/07 Tossicologia Informatica Ricerca di Informazioni Amianto TOXNET AA 2006/07 Tossicologia 44 AA 2006/07 Tossicologia 48 Informatica Ricerca di Informazioni 8 Laboratorio di Informatica Basi di dati NIST – costanti fisiche AA 2006/07 Tossicologia AA 2001/02 ©Capra, Lanzavechia, Rosti 49 Informatica Ricerca di Informazioni 9