L`Open Access e l`Università

Transcript

L`Open Access e l`Università
Workshop
Do It Ourselves: Social
Technologies for
Information Retrieval
2008 ELISAD MEETING
Gruppo Abele
Torino – 9/10 ottobre 2008
Web 2.0 = Read/Write Web
¾ Il Web di seconda generazione in realtà invera
il Web 1.0
¾ Non più spettatori isolati che isolatamente
fruiscono e consumano informazione
¾ Ma collaboratori nella creazione di conoscenza
online
¾ Tutte le attività umane sono toccate da questo
cambiamento: il giornalismo, la politica,
l'economia etc. ma è chiaramente l'informazione
che subisce i contraccolpi più evidenti
Qualità dalla quantità
Uno degli inconvenienti del Read/Write Web è la
crescita indiscriminata e incontrollabile di siti che porta
all'information overload
¾ Essere sovrastati da così tanta informazione da non
riuscire a trovare le risorse di interesse
¾ Il modello della directory (v. Yahoo!) che categorizza
ha dovuto lasciare il posto agli indici dei motori di
ricerca
¾ Il cui processo, che determina una rilevanza generale
basata su algortimi, non riesce però a determinare la
rilevanza per ognuno dei ricercanti
¾
Collaborative Filtering
¾ Invece di (oltre che) affidarsi ai soli algoritmi, il
social web ha puntato sulla capitalizzazione
delle conoscenze implicite ed esplicite delle
masse
¾ Harness collective intelligence, Wisdom of
crowds, Long Tail, Architecture of
Participation etc.
¾ Attraverso strumenti di selezione collaborativa
delle informazioni, gli utenti hanno cominciato a
trarre vantaggio dalla proprie stesse esperienze
e conoscenze
Collaborative Filtering
¾ La comunicazione è il più valido
strumento contro l'information overload!
¾ Socializzare la qualità, condividere le
responsabilità di una navigazione
consapevole
¾ Reputation/recommendation systems
¾ Social tagging/bookmarking (folksonomy)
¾ Newsmastering
¾ Customised Search Engines (CSEs)
Informazione medico-sociale
¾
¾
¾
¾
¾
¾
¾
“ a) Information Retrieval (IR)
“The healthcare knowledge base is expanding at an unprecedented rate
to gather, select and filter documents
Approximately 50,000 new records are
added
to Medline
that
mayannually
prove useful
database alone
b) Natural Language Processing (NLP)
Open Access publishers such as
CentralExtraction
have growing
c)BioMed
Information
(IE) ”
collections of full-text scientific articles
Only 20% of biological knowledge and data is available in sctructured
format or database
The remaining 80% is hidden in the unstructured, free text of scientific
publications”
Il Deep Web nuoce al reperimento di conoscenza e dunque alla
generazione di nuova conoscenza (alla formazione corretta degli
operatori, alla scoperta di nuovi farmaci, alla sperimentazione di cure più
efficaci etc.).
Di conseguenza la perdita di informazione può essere intesa come una
perdita per l'intera società
citations from C. Galvez, Knowledge management for biomedical literature
Informazione medico-sociale
¾
¾
¾
¾
¾
¾
Grande varietà di fonti – da quelle governative ai siti personali
Grande varietà di formati: pagine web, schede di database,
bibliografie su pdf, video, cataloghi online, statistiche, articoli in
Word etc.
Grande varietà di modalità di ricerca, ognuna dedicata a un sito o
a un segmento
Rischio elevatissmo di informazioni distorte o non correttamente
dimensionate rispetto all'utenza, bufale, spam, siti “canaglia”
(vendita di prodotti o servizi contraffatti o inesistenti)
Necessità si strumenti di IR per i professionisti che li aiutino a
vagliare l'immane letteratura pubblicata sul Web
Necessità di portali affidabili e certificati che espongano
Ruolo ma
delle
informazioni affidabili, certificate, specialistiche
in grado di
biblioteche
soddisfare anche le esigenze dei profani,
di qualitàe dei
centri di
doumentazione
Customised Search Engines
Elenco di siti e risorse accreditati
¾ Ricerca full-text nei documenti (.pdf, .doc etc.)
¾ Indicizzazione di (meta)repertori (directory, enciclopedie
online, basi di dati, open archive etc.)
¾ Risorse ad integrazione nel tempo (censimento
continuo)
¾ Selezione collaborativa
¾ Possibilità di (dis)approvare i risultati
¾ Inclusione delle maschere di ricerca in siti Web e blog
¾ Tag/Label per restringere il focus della ricerca
¾ Upload/download del knowledge base
¾
Customised Search Engines
¾ Esempio con Swicki
¾ Esempio con Rollyo
¾ Esempio con Live Search Macros
¾ Altri servizi disponibili online (Yahoo! BOSS, per
esempio!)
¾ Grandi siti fanno uso abitualmente, da qualche
anno, di motori specializzati invece del vecchio
Google Search sul sito
¾ Il gadget è utile per “spread the search”
Google CSE
Librarian's E-library (Google CSE) - Selected resources
on Libraries and Librarianship from the American
Library Association (ALA) Library and a growing list of
volunteers
¾ Addiction Search Engine - Designed to help people find
the information (...) relating to addiction and drug related
issues
¾ LIS-ITA-EJ - Periodici elettronici di biblioteconomia
italiani
¾ SO-LIB Social software for libraries (Google CSE) Risorse e informazioni online sull'applicazione dei social
software nelle biblioteche
¾
Google CSE - Funzionalità
¾
Configurazione (interfaccia, scelta tipologia, collaboratori
etc.)
¾
Elenchi di siti preferiti
Pattern URL per specificare siti (e parti di essi) da includere
nel knowledge base
Perfezionamenti: label utili a restringere la ricerca su alcuni
siti + possibilità di aggiungere parole alla stringa di ricerca
Import/export siti (“annotazioni”) e configurazioni (“contesto”)
via TSV e XML (anche feed RSS, OPML, file .html)
¾
¾
¾
¾
Attribuzione di uno score di rilevanza tra -1 e +1 per stabilire
una gerarichia delle fonti
¾ Possibilità di embeddare il motore di ricerca in pagine Web
come un qualsiasi gadget
¾ Stored o Linked CSE
In definitiva Google CSE è
Google CSE - Funzionalit
à
molto semplice ma anche
sufficientemente elaborato da
fly un sito
knowledge
¾ Google Marker per aggiungere on the
costituire
un al
ottimo
(il migliore
IMHO) strumento per la ricerca
base
in biblioteca o in un cerntro di
¾ Statistiche
documentazione
¾
¾
¾
¾
¾
Esclusione di annunci pubblicitari (enti non profit) o guadagno
con Google Ads
Messa a punto dei termini chiave e gestione dei sinonimi nel file
XML di contesto
Drawback: la ricerca viene
API e Ajax
effettuata solo
Google
Web;
Subscribed links: funzionalità indipendente
utile aincreare
risultati
alcuni disallineamenti
integrati che vengono presentati all'interno
dei risultati della con
non vi sono
certeda
query. Possono essere associati eGoogle;
quindi richiamati
(triggered)
funzionalità
presenti
in di
Google
specifiche parole chiave. È possibile
consentire
agli utenti
aggiungere i subscribed link attraverso
pulsante “sinonimi”,
HTML fornito
Web;un
funzione
da Google
“score”, upload file .hmtl
effettuate
attraverso il
Tool di terze parti per aumentarevanno
le funzionalit
à
file XML
Caricamento siti da del.icio.us
¾
¾
Caricando il feed dei miei bookmark su del.icio.us Google CSE
ha preso solo 1.100ca URL
Caricando il file HTML fornito dall'export di del.icio.us Google
CSE ha preso circa 1.400 URL (ha escluso i più recenti, benché
l'export di del.icio.us li avesse correttamente esportati); l'import
ha fatto sì che nel file delle annotazioni venisse dato punteggio
1.00 ai siti con la stringa “bonariabiancu” nella URL (questa
stringa appare nel mio username Google nonché nell'unico sito
che avevo assegnato ai “siti”)
¾
Il drawback è che i tag assegnati in del.icio.us vengono assunti
come label in Google (se ne avete tanti questo è ingestibile –
però si può usare un workaround ripulendo il file TSV da tutte le
label tranne _cse_14_nfyc-lwq, eliminare il file su CSE e
ricaricare quello emendato)
¾
È anche molto utile caricare un OPML o un feed
Creazione di un repertorio di
risorse utili
¾
¾
¾
Per i vostri colleghi
che lavorano nello stesso ente
che lavorano in altri enti ma sulle stesse tematiche
con cui partecipate a determinati progetti
Per gli utenti
come motore di partenza per interrogare tutte le vostre risorse
per information literacy e reference
come knowledge base di una disciplina o di un percorso
tematico
come strumento metodologico generale da sostituire a Google
per una navigazione consapevole (siti anti-bufale etc.)
L'elenco potrebbe essere collaborativo, aggiornato nel corso del
tempo, condiviso con altri utenti Internet etc.
Valutazioni parallele
¾
Target di riferimento
¾ Livello di approfondimento
¾ Obiettivi (v. slide precedente)
¾
Criteri di inclusione ed esclusione dei siti e delle altre risorse
¾ Valenza interna alla biblioteca, all'ente, nazionale,
internazionale (-> relativamente a ciò sceglierete anche la
lingua)
¾ Tipologia dei contenuti (solo siti o anche video, podcast etc.)
¾
Apertura ai collaboratori:
Sì -> chi (policy chiara: solo colleghi, solo utenti, libero etc.)
No
¾ ...
Sitografia
¾Google CSE
¾Google CSE Blog
¾Google CSE Forum
¾Swicki
¾Rollyo
¾Live Search Macros
¾Comparazione dei software per creare
motori personalizzati
GRAZIE E BUON LAVORO!
Bonaria Biancu
Biblioteca Università di Milano-Bicocca
Web: http://www.biblio.unimib.it/
Blog: http//bonariabiancu.wordpress.com
Email: [email protected]
17