L`Open Access e l`Università
Transcript
L`Open Access e l`Università
Workshop Do It Ourselves: Social Technologies for Information Retrieval 2008 ELISAD MEETING Gruppo Abele Torino – 9/10 ottobre 2008 Web 2.0 = Read/Write Web ¾ Il Web di seconda generazione in realtà invera il Web 1.0 ¾ Non più spettatori isolati che isolatamente fruiscono e consumano informazione ¾ Ma collaboratori nella creazione di conoscenza online ¾ Tutte le attività umane sono toccate da questo cambiamento: il giornalismo, la politica, l'economia etc. ma è chiaramente l'informazione che subisce i contraccolpi più evidenti Qualità dalla quantità Uno degli inconvenienti del Read/Write Web è la crescita indiscriminata e incontrollabile di siti che porta all'information overload ¾ Essere sovrastati da così tanta informazione da non riuscire a trovare le risorse di interesse ¾ Il modello della directory (v. Yahoo!) che categorizza ha dovuto lasciare il posto agli indici dei motori di ricerca ¾ Il cui processo, che determina una rilevanza generale basata su algortimi, non riesce però a determinare la rilevanza per ognuno dei ricercanti ¾ Collaborative Filtering ¾ Invece di (oltre che) affidarsi ai soli algoritmi, il social web ha puntato sulla capitalizzazione delle conoscenze implicite ed esplicite delle masse ¾ Harness collective intelligence, Wisdom of crowds, Long Tail, Architecture of Participation etc. ¾ Attraverso strumenti di selezione collaborativa delle informazioni, gli utenti hanno cominciato a trarre vantaggio dalla proprie stesse esperienze e conoscenze Collaborative Filtering ¾ La comunicazione è il più valido strumento contro l'information overload! ¾ Socializzare la qualità, condividere le responsabilità di una navigazione consapevole ¾ Reputation/recommendation systems ¾ Social tagging/bookmarking (folksonomy) ¾ Newsmastering ¾ Customised Search Engines (CSEs) Informazione medico-sociale ¾ ¾ ¾ ¾ ¾ ¾ ¾ “ a) Information Retrieval (IR) “The healthcare knowledge base is expanding at an unprecedented rate to gather, select and filter documents Approximately 50,000 new records are added to Medline that mayannually prove useful database alone b) Natural Language Processing (NLP) Open Access publishers such as CentralExtraction have growing c)BioMed Information (IE) ” collections of full-text scientific articles Only 20% of biological knowledge and data is available in sctructured format or database The remaining 80% is hidden in the unstructured, free text of scientific publications” Il Deep Web nuoce al reperimento di conoscenza e dunque alla generazione di nuova conoscenza (alla formazione corretta degli operatori, alla scoperta di nuovi farmaci, alla sperimentazione di cure più efficaci etc.). Di conseguenza la perdita di informazione può essere intesa come una perdita per l'intera società citations from C. Galvez, Knowledge management for biomedical literature Informazione medico-sociale ¾ ¾ ¾ ¾ ¾ ¾ Grande varietà di fonti – da quelle governative ai siti personali Grande varietà di formati: pagine web, schede di database, bibliografie su pdf, video, cataloghi online, statistiche, articoli in Word etc. Grande varietà di modalità di ricerca, ognuna dedicata a un sito o a un segmento Rischio elevatissmo di informazioni distorte o non correttamente dimensionate rispetto all'utenza, bufale, spam, siti “canaglia” (vendita di prodotti o servizi contraffatti o inesistenti) Necessità si strumenti di IR per i professionisti che li aiutino a vagliare l'immane letteratura pubblicata sul Web Necessità di portali affidabili e certificati che espongano Ruolo ma delle informazioni affidabili, certificate, specialistiche in grado di biblioteche soddisfare anche le esigenze dei profani, di qualitàe dei centri di doumentazione Customised Search Engines Elenco di siti e risorse accreditati ¾ Ricerca full-text nei documenti (.pdf, .doc etc.) ¾ Indicizzazione di (meta)repertori (directory, enciclopedie online, basi di dati, open archive etc.) ¾ Risorse ad integrazione nel tempo (censimento continuo) ¾ Selezione collaborativa ¾ Possibilità di (dis)approvare i risultati ¾ Inclusione delle maschere di ricerca in siti Web e blog ¾ Tag/Label per restringere il focus della ricerca ¾ Upload/download del knowledge base ¾ Customised Search Engines ¾ Esempio con Swicki ¾ Esempio con Rollyo ¾ Esempio con Live Search Macros ¾ Altri servizi disponibili online (Yahoo! BOSS, per esempio!) ¾ Grandi siti fanno uso abitualmente, da qualche anno, di motori specializzati invece del vecchio Google Search sul sito ¾ Il gadget è utile per “spread the search” Google CSE Librarian's E-library (Google CSE) - Selected resources on Libraries and Librarianship from the American Library Association (ALA) Library and a growing list of volunteers ¾ Addiction Search Engine - Designed to help people find the information (...) relating to addiction and drug related issues ¾ LIS-ITA-EJ - Periodici elettronici di biblioteconomia italiani ¾ SO-LIB Social software for libraries (Google CSE) Risorse e informazioni online sull'applicazione dei social software nelle biblioteche ¾ Google CSE - Funzionalità ¾ Configurazione (interfaccia, scelta tipologia, collaboratori etc.) ¾ Elenchi di siti preferiti Pattern URL per specificare siti (e parti di essi) da includere nel knowledge base Perfezionamenti: label utili a restringere la ricerca su alcuni siti + possibilità di aggiungere parole alla stringa di ricerca Import/export siti (“annotazioni”) e configurazioni (“contesto”) via TSV e XML (anche feed RSS, OPML, file .html) ¾ ¾ ¾ ¾ Attribuzione di uno score di rilevanza tra -1 e +1 per stabilire una gerarichia delle fonti ¾ Possibilità di embeddare il motore di ricerca in pagine Web come un qualsiasi gadget ¾ Stored o Linked CSE In definitiva Google CSE è Google CSE - Funzionalit à molto semplice ma anche sufficientemente elaborato da fly un sito knowledge ¾ Google Marker per aggiungere on the costituire un al ottimo (il migliore IMHO) strumento per la ricerca base in biblioteca o in un cerntro di ¾ Statistiche documentazione ¾ ¾ ¾ ¾ ¾ Esclusione di annunci pubblicitari (enti non profit) o guadagno con Google Ads Messa a punto dei termini chiave e gestione dei sinonimi nel file XML di contesto Drawback: la ricerca viene API e Ajax effettuata solo Google Web; Subscribed links: funzionalità indipendente utile aincreare risultati alcuni disallineamenti integrati che vengono presentati all'interno dei risultati della con non vi sono certeda query. Possono essere associati eGoogle; quindi richiamati (triggered) funzionalità presenti in di Google specifiche parole chiave. È possibile consentire agli utenti aggiungere i subscribed link attraverso pulsante “sinonimi”, HTML fornito Web;un funzione da Google “score”, upload file .hmtl effettuate attraverso il Tool di terze parti per aumentarevanno le funzionalit à file XML Caricamento siti da del.icio.us ¾ ¾ Caricando il feed dei miei bookmark su del.icio.us Google CSE ha preso solo 1.100ca URL Caricando il file HTML fornito dall'export di del.icio.us Google CSE ha preso circa 1.400 URL (ha escluso i più recenti, benché l'export di del.icio.us li avesse correttamente esportati); l'import ha fatto sì che nel file delle annotazioni venisse dato punteggio 1.00 ai siti con la stringa “bonariabiancu” nella URL (questa stringa appare nel mio username Google nonché nell'unico sito che avevo assegnato ai “siti”) ¾ Il drawback è che i tag assegnati in del.icio.us vengono assunti come label in Google (se ne avete tanti questo è ingestibile – però si può usare un workaround ripulendo il file TSV da tutte le label tranne _cse_14_nfyc-lwq, eliminare il file su CSE e ricaricare quello emendato) ¾ È anche molto utile caricare un OPML o un feed Creazione di un repertorio di risorse utili ¾ ¾ ¾ Per i vostri colleghi che lavorano nello stesso ente che lavorano in altri enti ma sulle stesse tematiche con cui partecipate a determinati progetti Per gli utenti come motore di partenza per interrogare tutte le vostre risorse per information literacy e reference come knowledge base di una disciplina o di un percorso tematico come strumento metodologico generale da sostituire a Google per una navigazione consapevole (siti anti-bufale etc.) L'elenco potrebbe essere collaborativo, aggiornato nel corso del tempo, condiviso con altri utenti Internet etc. Valutazioni parallele ¾ Target di riferimento ¾ Livello di approfondimento ¾ Obiettivi (v. slide precedente) ¾ Criteri di inclusione ed esclusione dei siti e delle altre risorse ¾ Valenza interna alla biblioteca, all'ente, nazionale, internazionale (-> relativamente a ciò sceglierete anche la lingua) ¾ Tipologia dei contenuti (solo siti o anche video, podcast etc.) ¾ Apertura ai collaboratori: Sì -> chi (policy chiara: solo colleghi, solo utenti, libero etc.) No ¾ ... Sitografia ¾Google CSE ¾Google CSE Blog ¾Google CSE Forum ¾Swicki ¾Rollyo ¾Live Search Macros ¾Comparazione dei software per creare motori personalizzati GRAZIE E BUON LAVORO! Bonaria Biancu Biblioteca Università di Milano-Bicocca Web: http://www.biblio.unimib.it/ Blog: http//bonariabiancu.wordpress.com Email: [email protected] 17