Librerie digitali

Transcript

Librerie digitali
Gestione di testi
Come si estrae il testo?
C’è altro oltre al testo?
Quali sono i metadati di interesse?
Quale formato è opportuno usare per
memorizzare il testo nella librearia digitale?
Librerie digitali
Gestione dei testi
2
Gestioni di testi
Digitalizzazione di testi
Molti dei dati memorizzatti in una libreria
digitale sono testi/libri
Insiemi di parole e immagini
Le operazioni da eseguire per la
digitalizzazione dei testi dipende fortemente
dal “formato” dei dati
Il testi che devono essere introdotti nella
libreria digitale si presentano in vari formati
Materiale cartaceo
Documenti elettronici
Scansione di documenti cartacei (=immagini)
File word, pdf, latex, testi in formato ASCII
3
Digitalizzazione di testi
4
Digitalizzazione di testi
Materiale cartaceo
Scansione del documento
Estrazione del testo dalle immagini
Optical Character Recognition (OCR)
Estrazione delle immagini contenute nel testo
Identificazione della struttura del testo
Capitoli, sezioni, titoli,...
Salvataggio dei dati e dei metadati
Documenti elettronici
Scansioni di documenti cartacei e/o immagini
Stesso procedimento usato per i documenit cartacei
con la sola esclusione della fase di scansione
5
File word, pdf, latex, testi in formato ASCII
Estrazione del testo
Estrazione delle immagini
Idenfificazione/estrazione della struttura del testo
Facile con word, latex
Difficile per semplici testi ASCII
Salvataggio dei dati e dei metadati
6
1
CCS – Offices
Digitalizzazione di testi
Input
Digitalizzazione di testi
docWORKS engine
Per ogni testo nella libreria digitale si
memorizzano
Il documento elettronico originale o la scansione
Output
Image Pre-Processing
Scanning
Correction
Layout Analysis
document
Character Recognition
Import
Export
Structural Analysis
del documento cartaceo
I metadati
Versioni diverse dello stesso testo
Word, testo ASCII, Immagine, ..
Utile per permettere un accesso più facile ad utenti diversi
Sommari e riassunti del testo
Facilita l’analisi dei risultati da parte degli utenti
METS
ALTO
TIFF
JPEG
Rules
DB
7
CCS – Offices
8
CCS – Offices
Ci sono molte altre
informazioni
OCR: esempio di output
Pagina con il titolo
THE
Titolo della serie di volumi
AMER IC AN MISSION AR Y.
Vo.. XXXII JANU AR Y, 1878 No. 1
Numero dell‘issue
American Missionary Association
1877 - 1888
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Data di pubblicazione
Numero del volume
Motto
9
CCS – Offices
10
CCS – Offices
docWorks: Analisi della
struttura
docWorks: Analisi della
struttura
FRONT
Subcapitolo 1
MAIN
Subcapitolo 2
Capitolo 1
BACK
Capitolo 2
11
12
2
CCS – Offices
CCS – Offices
docWorks: Analisi della
struttura
docWorks: esempio di
digitalizzazione di un libro
Prefazione
Frontespizio
Indice
Informazioni
editoriali
13
CCS – Offices
14
CCS – Offices
docWorks: esempio di
digitalizzazione di un libro
docWorks: esempio di
digitalizzazione di un libro
15
CCS – Offices
docWorks: tipo di struttura
logica utilizzata (METS)
Metadata Encoding and
Transmission Standard (METS)
METS
Un documento METS può avere 7 sezioni
METS Header
Metadati descrittivi
Metadati amministrativi (e tecnici)
Sezione relativa ai file che rappresentano il
FILEID
DC
ALTO
FILEGRP
text block
Coo
rdin
ates
EID
PHYS
FILEID
DIV
(issue)
ALTO
DIV
(contrib.)
text block
ord
Co
in a
documento
Mappa strutturale
Link struttutali
Sezione Behavior
tes
BEG
IN
DIV
(chapter)
fptr
fptr
LT
XS
seq
T
SL
X
DIV
(paragraph)
IN
DCMD_#CONT#
DCMD_CHAP#
EID
FIL
DIV
(volume)
DCMD_ISSUE#
BE
G
DCMD_PHYS
DCMD_ELEC
FI L
LOGICAL
16
Those who have read the
History of Columbus will,
doubtless, remember the
character and exploits ...
Tutti gli esempi sono estratti da http://www.loc.gov/standards/mets/METSOverview.v2.html
17
18
3
METS Header
Metadati descrittivi
Descrive il documento/oggetto
Possono esserci riferimenti a metadati
Esterni (<mdRef>...</mdRef>)
Interni (<mdWrap>... </mdWrap>)
<metsHdr CREATEDATE="2003-07-04T15:00:00“
RECORDSTATUS="Complete">
<agent ROLE="CREATOR" TYPE="INDIVIDUAL">
<name>Jerome McDonough</name>
</agent>
<agent ROLE="ARCHIVIST” TYPE="INDIVIDUAL">
<name>Ann Butler</name>
</agent>
</metsHdr>
Riferimento a metadati esterni
<dmdSec ID="dmd001">
<mdRef LOCTYPE="URN" MIMETYPE="application/xml"
MDTYPE="EAD"
LABEL="Berol Collection Finding Aid">urn:xnyu:fales1735</mdRef>
</dmdSec>
19
20
Metadati amministrativi e
tecnici
Metadati descrittivi
Riferimento a metadati interni (embedded)
Sezione <amdSec>...<amdSec>
Metadati tecnici
Sezione <techMD>...</techMD>
Formato, processo di creazione, ...
<dmdSec ID="dmd002">
<mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin
Core Metadata">
<xmlData>
<dc:title>Alice's Adventures in Wonderland</dc:title>
<dc:creator>Lewis Carroll</dc:creator>
<dc:date>between 1872 and 1890</dc:date>
<dc:publisher>McCloughlin Brothers</dc:publisher>
<dc:type>text</dc:type>
</xmlData>
</mdWrap>
</dmdSec>
Metadati relativi alla proprietà intellettuali e
copyright
Sezione <rightsMD>...</rightsMD>
Informazioni su copyright, licenze, ..
21
Metadati amministrativi e
tecnici
22
Sezione relativa ai file
Metadati relativi alla “sorgente” dei dati
Sezione <sourceMD>...</sourceMD>
Informazioni descrittive e amministrative
sull’oggetto (dato) che è stato incluso nella libreria
digitale
Metadati sulla provenienza dei dati
Sezione <digiprovMD>...</digiprovMD>
Provenienza dei dati e trasformazioni/migrazioni
applicate sui dati
23
La sezione dei file è usata per
Riportare i riferimenti ai file presenti nella DL
Raggruppare file che sono “legati” tra di loro
Elemento <fileGrp>...</fileGrp>
Esempi di raggruppamenti:
Documenti originali/master
Versione PDF dei documenti
....
24
4
Sezione relativa ai file
Mappa strutturale
<fileSec>
<fileGrp ID="VERS1">
<file ID="FILE001" MIMETYPE="application/xml" SIZE="257537" CREATED="2001-06-10">
<FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.xml</FLocat>
</file>
</fileGrp>
<fileGrp ID="VERS2">
<file ID="FILE002" MIMETYPE="audio/wav" SIZE="64232836"
CREATED="2001-05-17" GROUPID="AUDIO1">
<FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.wav</FLocat>
</file>
</fileGrp>
<fileGrp ID="VERS3" VERSDATE="2001-05-18">
<file ID="FILE003" MIMETYPE="audio/mpeg" SIZE="8238866"
CREATED="2001-05-18" GROUPID="AUDIO1">
<FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.mp3</FLocat>
</file>
</fileGrp>
</fileSec>
Sezione <structMap>...</structMap>
Un insieme gerarchico di elementi <div> per
facilitare la navigazione da parte degli utenti
Puntatori METS
<mptr>
Usati per referenziare altri file METS separati
Puntatori a file
<fptr>
Usati per referenziare file descritti nella sezione
dei file all’interno del file METS attuale
25
Link strutturali
26
Link strutturali
Sezione <smLink>...<smLink>
Usata per codificare hyperlink tra sottosezioni
<div ID="P1" TYPE="page" LABEL="Page 1">
<fptr FILEID="HTMLF1"/>
<div ID="IMG1" TYPE="image" LABEL="Image Hyperlink to
Page 2">
<fptr FILEID="JPGF1"/>
</div>
nella sezione mappa strutturale
Usata per gestire l’archiviazione di siti web
<div ID="P2" TYPE="page" LABEL="Page 2">
<fptr FILEID="HTMLF2"/>
</div>
**********
<smLink from="IMG1" to="P2" xlink:title="Hyperlink from
JPEG Image on Page 1 to Page 2" xlink:show="new"
xlink:actuate="onRequest" />
27
Esempi di uso concreto dello
standard METS
Sezione Behavior
Section <behavior>...</behavior>
Usata per associare executable behaviors con il
Library of Congress Audio-Visual Prototype
Project
http://www.loc.gov/rr/mopic/avprot/metsmenu2.html
contenuto del file METS
Puntatori a programmi, codici eseguibili
<mechanism>...</mechanism>
<METS:behavior ID="DISS1.1" STRUCTID="S1.1" BTYPE="uva-bdef:stdImage"
CREATED="2002-05-25T08:32:00" LABEL="UVA Std Image Disseminator"
GROUPID="DISS1" ADMID="AUDREC1">
<METS:interfaceDef LABEL="UVA Standard Image Behavior Definition"
LOCTYPE="URN" xlink:href="uva-bdef:stdImage"/>
<METS:mechanism LABEL="A NEW AND IMPROVED Image Mechanism"
LOCTYPE="URN" xlink:href="uva-bmech:BETTER-imageMech"/>
</METS:behavior>
28
Fedora Digital Repository (UVa, Cornell et al.)
http://www.fedora.info
DSpace (MIT et al.)
http://www.dspace.org
Un numero elevato di strumenti per
l’acquisizione e la trasformazione di libri/testi
29
30
5
Alcuni sistemi per la
conversione dei testi
Alcuni sistemi per la
conversione dei testi
The IU METS Page Turner
Jane Johnson Collection
http://webapp1.dlib.indiana.edu/collections/lilly/janejoh
nson
Brittle Books Collection
http://urania.dlib.indiana.edu:8080/metsnav/default/wel
The Harvard Online Reference Shelf
http://hul.harvard.edu/huarc/refshelf/
The Metadata Engine Project (MetaE)
http://meta-e.aib.uni-linz.ac.at/
come.doc
University of Michigan Text Center
http://www.hti.umich.edu/
31
32
6