F. L""`<:)TUZZI

Transcript

F. L""`<:)TUZZI
J\
~\
N. 133
N. AGOS'l'I
H. E. CRESCENI'I
F. L""'<:)TUZZI
P. SCHIA,,:)N
SIS'l'El>U INF')R,\VlTIVI: DOC-4 E SCRIN
Estratto da "I QU?'Cierni òell'Elaborazion~
Automatica" n. 2, giugm.. 1978, pp. 49-72.
,
I
Facoltà òi Scien7.e Statistiche Demografiche ed
Uni.versit.à deg.? i Studi
Via del Santo 22 - 35100 - PADOVA (Italia)
Att~ariali
SISTEMI INFORMATIVI: DOC-4 E SCRIN·
MARISTELLA AGOSTI
(Istituto di Statistica, Università di Padova)
MARIA EMANUELA CRESCENTI
(Centro di Calcolo, Sezione Scientifico-didattka, Ur.'.versità di. Padova)
FRANCO LESTUZZI
(Centro St,udi della Barbariga, Strà, Venezia)
PAOLO SCHIAVON
(Centro di Calcolo, Sezione Scientifico-didattica, Università di Padova)
Ricevuto in data 5 h,glio 1977
Si descrivono due sistemi
di documentazione automatica messi a
punto su un minicalcolatorc. Entrambi
i sistemi sono colloquiali, richiedono
poca memoria per il loro fUl1zionamen~
to ed hanno dei tempi di risposta
estremamente bassi. Benché l'organizzazione dei dati e la logica interna di
funzionamento '<;'8.no molto diverse, entrambi i sistCl.di utilizzano lo stesso
li:tguaggio di interrogazione per facili~
tare l'uso all'utente.
SOMMARiO -
This paper describes two
Information Retrieval systems develop~
ed on a minicomputer. Bath systems
operate 011 real~time basis, require size
mernory small and have a low respanse
time. Though data organization and
iinternal logic are very different, both
syslem:: have plain and easy to lise
query language.
ABSTRACT -
,
I
1. - PREMESSA.
L'arci"viazione ed il ritrovamento dei dati è attuaÌJnente uno dei più
importanti problemi dell'elaborazione automatica delle informazioni.
Quando si pensa che esi,tono biblioteche con milioni di volumi
risulta chiaro che nessuna lecnica manuale è in grado di garantire un
aggiornamento ed un accesso in tempi ragionevoli.
Inizialmente il pr'èblema è stato studia'.o solo per gli archivi di
grandi dimensioni (biblioteche nazionali, istituti bancari, ecc.).
50
1\J. AGOSn " ì\.t. E. CRI)SCENTI - l', LESTUZZI - P. SCHIAVON
Esistono però anche, e sono anzi più nUDlerosi, archivi di din1cnsioni
medie (fino a qualche' decina di migliaia di dc'cumenti) per ; q118li
una procedura autonlatica può essere estrenlalt.ente vantaggi0sa: si
tratta degli archivi che defimremo medi omogenei, in quanto raggruppano documenti che hanno fra di loro una elevata 8.ffinità. Rientrano
per esempio in questa classe le biblioteche di istituto universitario
(i testi normalmente riguardano argomenti specifici) l'insieme delle cartelle cliniche di un ospedale, le fototeche, le cineteche, ecc.
Vogliamo ora descrivere due modelli svi'.uppati per le biblioteche
di due istituti.
Si fa notare che anche se più avanti si farà riferimento esclusivamente alle applicazioni specifiche già sviluppate, gli stessi modelli possono essere facilmente utilizzati per altri archivi medi omogenei.
Le ricerche in una biblioteca di istituto sono essenzialmente di
due tipi:
1)
un testo del quale si conoscono già i dati bibliografici essenziali;
2) un insieme di testi che sono collegati fra loro da connessioni logiche
particolari e difficilmente prevedibili a priori.
Xl caso 2 è il più frequente durante la fase iniziale di documentazione di un nuovo lavoro. In questo 'caso infatti si ricercano per esempio
i libri che trattano di alcuni specifici argomenti, o che sono stati scritti
da un determinato autore eventnalme~te eliminando quelli pubblicati
prima di una certa data. In base ai risultati di questa ricerc8 si passa
poi al ritrovamento del testo che interessa.
Si può notare quindi che le esigenze dell'utente di 'lueste biblioteche SOGO eli tipo partic.ola"e: infatti m,rIte volte il rice;-catore porrà :a
sua donlanda in ternlini piuttosto vaghi, salvo precisarla ulteriormente
quando avrà assunto nuove informazioni.
Entranlbi i 1110delli che ve.rranno descritti più. avanti sono stati
studiati in particolare per rispond(:re a questa eSJ.genza: si tratta cioè
di sistemi colloquiali nei quali l'utente interr0ga il calcolatore ed ottiene
in risposta un insieme di documenti.
Egli può successivamente modificare la propria domanda in modo
da renderla più precisa, fino ad ottener ~ u oa risposta soddisfacente.
I sistemi consentono inoltre di ottener~ informazioni più dettagiiate
su testi specifici.
SlSTE;VU INFORMATIVI;·
-DocA E SCiHN
51
Tutte quest" operazioni avvengono in tempo reale. Il tempo di
attesa per l'utent.e è quindi di pochi secundi.
Un ulteriore aspetto estremamente intercSS2.1te di questi due modelli è che sono stati sviluppati utilizzando un minicalcolatore. Questo
fatto è molto importante sia perché dir.:;ostra quali siano le possibilità
attuali dei minicalcolatori nella gestione di banche di dati, sia per le
appli:, zioni pratiche, in quanto le caratteristiche della macchina sono
perfettamente compatibili con le possibilità e le esigenze di una biblioteca di medie dimensioni.
Il calcolatore utilizzato è un NOVA 840 con 80 K bytes di memoria
centrale (quando i modelli sono stati svilupp?ti e messi a punto la
memoria disponibile però era di 64 K bytes). La memoria di massa è
costituita da due dischi da 2,5 M bytes. Le periferiche collegate sond un
terminale video, un terminale stampante tipo teletype funzJ.onante a
300 bauds, un lettore di ~chede, un lettore ed un perforatore veloci
<1; bande.
2. - Lo SeRIN.
2.1. Introduzione.
Lo SCRIN (Sistema Colloquiale per la Ricerca dell'Il1formazione)
è stato studiato e messo a puntoper\ una biblioteca specializzata (di linguistica). Le sue caratteristiche però sono tali da renderlo adatto a
trattare un c:ualunque archivio di dati (*) che debba essere consultato
secondo schemi non prevedibili utilizz~ndo particolari parole chiave
dette descrittori.
I descrittori sono termini associati ad ogni testo e che ne descrivono
in q'"alche modo il contenuto, o hanno col testo una attinenza logica.
A differenza dalle normali parOle chiave un descrittore può anche
non essere contenuto nel testo a cui è associato.
Un descdttore può essere costituito da più parole (al limite da una
frase intera).
Per esempio per quest'articolo alcuni possibili descrittori sono:
('~) Più avanti si parlerà sernpre j~ testi implicitamente facendo riferimento
al sistema attualmente implernenl.uto, [ermo resta.Jdo che le stesse considerazioni
si possono fare per archivi di dati cl tipo diverso (es. leggi c decreti, cartelle
clinkhe, ecc.).
52
;\f,
i\{)(lSTI . j\,L E. CRESCENTI - F. LESTliZZI . P. SCHIAVON
Information retrieval, minicomputer (applications), hash-code ("*).
Estendendo questo. concetio anche gli autori od il titolo possono
essere considerati descritiori ed in effetti lo SCR. N li tratta come tali.
Questo, come si vedrà più avanti, consente una notevole libertà nella
domanda dell'utente.
Si vuoI far notare infine che i dcscrittori così come sono stati definiti risolvono immediatamente situazioni che sarebbero altrimenti ambigue con le normali Ilrole shiave: per esempio e,istono nell'attuale
implementazione i due descrittori "language of philosophy" e "philosophy of language ". Questi pur esprimendo concetti totalmente diversi
risulterebbero indistinguibili in un normale sistema a parole chiave.
L'associazione testo-descrittore non è autoluatica 111a deve essere
fatta da una persona preparata. Si è constatato che questo metodo porta
ad· una ll1aggìore precisione nell'identificazione dei testi.
L'utente dello SCRlN esprime la propria domanda come una sequenza di descr':tori e/o di nomi di autori collegati fra bro dagli operatori logici AND, OR, AND NOT.
Il sistema provvede ad individuare l'insielne di testi associati ad ogni
descrittore ed ad effettuare le operazioni richieste fornendo alla fine
un insieme di testi che soddisfano alla pomanda.
Verranno ora descritti i fil es del sistema, i programmi di aggiornamento e consultazione ed infine le attuali possibilità dello SCnIN e gli
sviluppi previsti.
.
2.2. Organizzazione dei dati.
I dati che (levano essere ritrovati vengono conservati tutti i"1 un
file (file BASE), mentre le chiavi di accesso (descrittori, nomi di autori)
si trovano in files invertiti. Gli aggarci tra questi fil", (si traha di
alcuni files di indirizzi) sonG totalnoente inaccessibili e tracparenti per
l'utent.e.
I records del Jìle BASE sono di lum>:hezza variabIle al fine di ottenere
il m~ssirno sfruttamento dello spazio disponibile. Ogni :record è diviso
in più canlpi (numero di ll1agazzino, autore, titolo, sottotitolo ... ) ognuno
dei quali è pure di lunghezza variabile ed indirizzabile separatam"nte
tramite opportuni puntatori. Alcuni di questi campi sono obbligatori
(*>,,) Nel caso di un archivio di cartelle cliniche p. es. alcuni descrittori potrebbero essere la I11rtlattìa, gli interventi, le mediciric, ecc.
53
SISTEMI fNFQìU...1ATlVl: Doc-4 E SCRIN
(cioè sono sempr'" presenti p. es. il titolo del testo) altri (p. es. il sottotitolo, il riassunto) possono anche mancare. Quando un campo manca,
per esso non vie.'1e riservato spazio nel recorè.
Al ftle BASE è associato un file di indirizzi (PUNTBASE) con records
di lunghezza ftssa ognuno dei quali cor tiene il punto di partenza del
corrispondente record del ftle BASE.
F ~l' la gestione del sistema tutto avviene come se questi due ftles
costituissero un solo ftle di tipo sequenziale con indice.
Il file dei descrittori C') ha records di lunghezza ftssa, essi contengono il nome del descrittore, il numero di testi associati ed un puntatore
ad un file dove si trova l'elenco degli indici ai te<ti associati. All'interno
del file i descrittori vengono mantenuti ordinati alfabeticamente in
quanto la ricerca viene effettuata con un metodo dicotomico. L'accesso
ai dati del file BASE avviene dunque secondo il seguente sche.na:
,
I
i---
-../~
,~
--1
t'\~
I
CE .Se
li
l
PUIJTCfI-C
"
I
r--'l
,
I
'-.,.
l'UNI BA5,~
\
~
Fig. 1.
C~) Si parlerà gen(;riCamenk dei descrittori, però tutte le considerazioni restano
valide anche per gli autori. Nel sistema attualmente implementato il file degli
autori è separato da quello (lei descrittori propri~.mente detti. Sarebbe possibile
però riunire i due flles oppure aggiungerne altri per avere altri tipi di ricerca
(esempio per titolo).
54
1d. AGOSTI - lì'L E. CRESCENTI - F. l.ESTUZZI - P. SCHIAVON
Cioè trovato un descrittore il sisten1a ricava 1'insien1c degli jndici
associati e da questi tramite il !ile PUNTBASE Uova gli indiriz:'; neHa
base dei dati ai testi richiesti.
I programmi di gestione: dello SCRIN sono stati studiati in modo
da renderne l'uso il pie! semplice Dossibile per l'operatore e per l'utente,
ed allo stesso tempo in modo aa proteggere il più possibile la base
dei dati da eventuali errori.
2.3. Aggiornamento e consultazione.
Il funzionamento dello SCRIN può essere diviso in due fasi: una
fase di aggiornamento ed una di consultazione (un programma speciale
da utilizzarsi una volta sola, provvede alla generazione iniziale del
sistema creando tutti i files necessari, ma vuoti).
La fase di aggiornamento a sua volta è divisa in due parti:
aggiorn'mento del file BASE
agiornamento del file descrittori.
L'operatore incaricato eli queste operazioni deve limitarsi a preparare i nuovi d8tÌ in ingresso (nuovi testi da aggiungere) ed a richian1are
nell'ordine i due programmi.
Il primo programma esamina i dati nuovi, verifica che questi rispettino una struttura formale predefinita (nel nostro caso una p"rticolare
scheda bibliografica), li aggiunge al file BASE e crea gli agganci necessari all'interno del file PUNTBASE.
Il secondo programma accede dirè;ttamente alla base dei dati, esamina i nuovi te,'i introdotti e provvede ad aggiornare il ftIe ùESCRITTORI ad il file degli indici associati.
L/esecuzione di questi pro~'Tamlni è totalmente automaLica e non
richieèe a:::uD intervento Ja parte dell'operatore. Eventuali errori V(',1~
gono segnalati con opportuni lllessaggi, e non comportano mai la perdita dei dati preesistenti aH 'operazione di aggiorncn1cnto.
È stato D1esso a punto un progrmnn1« spec:'ale per effettuare lo
spoglio delle riviste; per evitare eli dover ripetere, per ogni articolo,
un certo numero di informazi mi costanti (titolo della rivista, coli )cazione, luogo di pubblicazione, ecc.), questi dati vengono conservati su
un file a parte. Facendo lo spoglio di una rivista è sufficiente dare il
nUll1ero di codice della rivista stessa, ~,L n;.l~nero e la dD-ta cii pubblica~
zione e i dati essenziali di ogni articolo (autore, titolo, descrittori e riassunto). Il sistema provvede a completare gllesti dati con le informazioni
SlSTEi:\H l:-<FOR:\,tATIVl:
noc-4
E SCRIN
55
fisse e prepara :,'n Elc che viene passato al Dannale prograrlÌfna di
agg!oH'arneni"f).
La fase di cCJUsu1tazione come SI e già dnto è di tipo colloquiale.
La domanda che l'utente pone allo SCRIN si presenta come una sequenza
di descrittori collegati oon operatori lo/ici.
Non vi sono restrizioni nel numero di descrittori che possono essere
specit:cati né sull'ordine (autori e descrittori propriamente detti possono
essere n1escolati).
Quando non è nota la grafìa corretta di un descrittore questo può
essere indicato in forma incompleta (naturalmente la richiesta diventa
meno precisa; p. es. la domanda A = porta alla rieerea di tutti i
descrittori che cominciano con la lettera A).
Lo SCRIN esamina la domanda da sinistra verso destra, individua
per ogni descrittore l'insieme di indici associati ed effettua le operazioni
logiche fra questi insiemi.
Non è stata stabilita alcuil". rrecedenza fra gli op"ratori logici;
per modificare l'ordine di esecuzione si possono usare le fcwentesi che
possono essere inserite senza limite di numero e di livello.
Eventuali errori (es. descrittore non valido) vengono segnalati
all'utente che può provvedere a rHormulare la r\omanda.
Alla fine lo SCRIN sottopone all'utente un insieme di testi che
soè.disfano la richiesta. Questo insieme viene presentato sotto la forma
di file sequenziale COn indice: l'utente cioè può esaminare i testi ritrovati sia sequenzialrnente (in forma diretta o inversa) sia casualmerte.
(Questo file pon è fisicamente esistente. ma dal punto di vista dell'utente
tutto avvier,p come se esso fòsse stato costruito).
,
Nell'esaminare i testi l'utente può fahi stampare i dati bibliografici
essenziali, l'elenco dei descrittori oppure il riassunto. Il sistema inoltre
è collegato con un selettore autonlatico di n1icl~ofìches.
La s~lezione d"~l fotogranuna corrisponde al lesto desiderato avviene.
autolnaticmnente ed è cc.ntrollata dal calcolatore.
Questo consente di fornire all'utente un'informazione più completa
(testi p'~1. lunghi o àisegni).
Il programma di aggiornamento del file BASE può caricare circa 50
parte dell'utente che in nessun caso può alterare la base dei dati o altri
files del sistema.
2.4. Prestazioni e limiti.
L'attuale implementazione è risultata del tutto soddisfacente Sid
dal punto di vista dei tempi dc esecuzione sia per.l'impiego di memoria
56
M. AGOSrr - ?\1. E.
cr~ESCE:-':TJ
- F. LESTi)ZZI - P. SCHLJ\VON
richiesto. Tutti i progranlmì richiedono solo lO K parole CC).
Il programma di agior.<am( nto dei file B\SE può c,ric2l'e circa 50
testi al n1ii'uto, mentre l'aggiornamento del file descrittori richiede ten!)i
più lunghi che dipendono sia dal numero di dati nuovi sia dallc quantità
di dati già presenti (il programma comprende una hse di SORT ed uno.
di MERGE). Indicativamente si può dire che i temni sono circa 2-3 volte
i tempi necessari per aggiornare il file BASE.
Per quanto riguarda la h.se di consultazione i telnpi di risp,)sta
vanno da meno di 1 s. pcr domande semplici (un solo descrittore senza
operazioni logiche) fino a 20-30 s. per domande complesse con una
decina di descrittori ed operazioni log:che ~u insiemi di qualche centinaio di elementi.
Nel considerare questi tempi bisogna notare però che tutte le operazioni di I/O sU disco vengono effettuate tramite buflers in memoria
che vengono trasferiti fisicamente solo quando questo è necessario (il
sistenla conserva una traCcift di tutte le porzioni ,:'5 file già caric:?te ~n
memoria). Questi buffers vengono allocati dinamicamente in modo da
occupare tutta la 111cnlorìa disponibile. I progran1111Ì risultano quindi
tanto più veloci quanto maggi0re c la partizione di memoria che viene
loro assegnata (p. es. per la fase di SORT passando da lO a 20 K si ha
un guadagno di tempo di circa il 25 %).
I limiti dell'attuale implementazione dello SCRIN sono dati essenzialmente dal tipo di disco a disposizione c dalla necessità di limitare
l'occupazione di memoria durante lh fase di consultazione.
Un disco da 2.5 M bytes può contenere circa 5000 testi, tatti i files
invertiti e tutti i programmi necessari. l~
Avendo a disposizione dischi di dimensioni maggiori è possibile arrivare a circa 20000 testi, oltre i quali è necessario modificare leggermente
i puntatori per C':msentire l'indirizzame:lto di files pii' grandi.
Per limiti nella iase di consultazione la lunghezza glob',le di un
singolo testo non può superare i 1200 caratteri mentre una richiesta non
può superare i 252 caratteri (resta libero ii numero di descrittori specificato ),
Inoltre Don ci possono essere più di 255 testi associati ad ogni
e) I progranlmì 5nno tutti scritti in ALGOL ~1l fine di assicurare una buona
mantenibilità e traspOl tabilità. Questo ba ponato un maggior impegno di me~
moria. Sì è 5t1rnato che lo SCRIN fosse stato sc:itto in ASSEMBLER potrebbe
funzionare in meno di 5 K parole.
SISTE:vn JNFORi\,fATIVI: DOC-4 E SCRIN
57
descrittore e non è possibile superare i 511 testi durante le fasi interluedie delle operazioni logiche.
Aumentando però di solo l K !'impegno di memoria è possibile raddoppiare tutti questi numeri.
2.5. Considerazioni finali.
Lo SCRIN nella sua versbne attuale è già soddisfacente per l'applicazione per la quale è state studiato.
Sono allo studio parzialmente in fase di sviluppo alcuni perfezionamenti. Fra i. più Ìluportanti si segnalano i seguenti:
1)
;;:)
3)
4)
introduzione di altri operatori logici (OR esclusivo);
collegamento con un selettore automatico di microfiches pe~ la visualizzazione di dati non conservabili in disco (già in fase sperimentale);
un programma di parametrizzazione per poter descrivere al sistema
dati di tipo diverso;
passaggio ad un sistema multi-user.
3. - DOC-4
SISTEMA INTERATTIVO DI DOCUMENTAZIONE AUTOMATICA.
3.1. Introduzione.
,,
.
11 sistema DOC-4 realizza l'archiviazi'one eil reperimento di infor-
mazioni bibliografiche in tempo reale.
Nel 01stenm possono e..;sere ,t.ilG: iiJuate tre fasi fondaluentali:
1)
2)
3)
fase di installazione del sistema;
fase di archiviazione di informazioni bibliografiche;
fase di recupero dclle informazioni.
Queste tre fasi vengono realizzate da un packagc di tre progrmnnli
di tipo colloquia1c; i primi due programmi possono essere utilizzati
esclusivamente dai responsabili delle rispettive fasi; il terzo programma, invece, è specificatal11ente orientato 8.ll'utente dì un sistema di
docurnentazk:le auto111atica. L'utente che non conosca le modalità di
interrogazione, o che desideri avere delle delucidazioni sulle stesse, oltre
58
,\1. AGOSTI - ;\1. E.
Cl~E.sCE\'TJ.
- f. LESTUZZI - P. SCJ.fL\VO:'\
ad avere la possibilità di consultare un rnanuale di utilizzo può avere
delle delucidazioni dal sis~ema stesso. Infatt: il sisterr.a elenca su richiesta dé:I'utente, quali sono le diverse possibilità di recupero delle
informazioni, cioè la possibilità di esegui,-e la ricerca per titolo, per
autore, per casa editrice o per parole chiave, ogruna corredata dalle
relative modalità per formulare la richiesta.
Nella fase di installazione del sistema vengono stabilite le dimensioni dell'archivio delle inforhlazioni in relazione alla biblioteca c( nsiderata.
La fase di archiviazione delle informazioni attlla la costruzione dell'archivio delle informazioni, cioè l'insc"imento deUc informazioni relative all'insienle iniziale dci dOCUDlenti considerati, lTIR attraverso questa
fase vengono attuati anche' tutti gli inserin1enti relativi al1'aggiorna~
mento dell'archivio in relazione a nuovi dOCU1l1enti che accrescono il
patrimonio dOCUlnentario àisponibile inizialmente. Se sono state intro~
dotce delle inrornlazioni errate, in questa fase si }"UÒ procedere cìirel.:La~
mente alla modifica di queste informazioni, sia chc riguardino un documento nella sua completezza o siano relative solo a una sua parte; il
sisten1a creerà anton1atican1ente il collegamento con la parte delle infor~
l11azioni corrette sostitutive di quelle precedentclnente introdotte o efTet~
tuerà la cancellazione delle
>.;.,.
.precedenti informazioni, se conlpleimnente
.
errate, e archivierà quefIe corrette. L'introdnzione delle informazioni
può avvenire indifferentemente da teletype o da scheda; l'introduzione
di una grossa massa di inforn1azihni può esserq più agevole facendo
eseguire la lettura da scheda, Dlentre l'aggiornarnento di reutine può
essere più pratico ed economico eseg'4rlo da teìetype.
3.2. Metodo di classificaz.ione.
L'insien1e dei dOLufnenti considerati è quello l'acca! to in cna hiblio~
teca specializzata. Quando si. è affrontato il problema della classificazione
di questi docurnenti si sono volute tenere presente due consiùerevoli
esigenze degli utenti di una biblioteca; la prlnla è quella della possibilità
di utilizzare, come linguaggio di ricerca auton1atica, un linguaggio il più
vicino possibile al linguaggio naturale, la seconda è che la risposta sia
mediata da un s1stel118. di classificazione dì tipo tradizionale in n1aniera
tale che i dOCUlnenti ritrovati possano anche essere ripartiti, come
avviene usualmentl, fra classi diverse. Il Sisten1a DOC-4 realizza questi
scopi utilizzando due diversi metodi di classificazione dei documenti
collegandoli poi fra di loro con1e verrà esposto in seguito.
59
SISTEIv11 TNFOR\lA'L'.V"i: DocA E SCRfN
Il primo è il metodo dell'individuazione coordinata del. contenuto
di ogn~ JocUlnento roediar.te una lista di parole
chiave associate al documento stesso. La scelta delle parole chiave dal
documento deve essere fatta in maniera tale che ogni parola chiave individui un argomento fondamentale trattato nel documento stesso. Inoltre
argon1cnti anaioghi trattati in documenti diversi devono essere sintetiz~
zati mediante la stessa parola chiave; in questo modo il linguaggio di
rlcerca è costituito da paraI ~ della lingua naturale, ma la ricerca
risulta sen1pliflcata con l'elinlinazione della sinonimia tra le parole
chiave [1 - 2 - 3]. Le relazioni che intercorrono fra una parola chiave e
il contenuto sCl11aniico da essa sintetizzato pCjssono essere formalizzate
con1e di seguito.
Si chiami I = {i" 1" "', i e } l'insieme di tutte le informazioni elementari e K = {1<" k" "', k"} l'universo delle parole chiave k. Date il dominio K e il codominio !J?(I) , insieme delle parti di I, si suppone
l'esisienza di una funzione ~niettiva f:
s!'>man~ico fondamentale
f: K -+ ,%,(1)
f: k-+f(k,).
Chiamiamo e, = f( k,), ..., eH = f(1<,,) , l'insieme E = {e" e" "', en} è !'insien1e universo degli argOlnenti; la gen~rica lei svolge, quindi, la funzione
di designazione dell'argomento e,. Si suppoùe inoltre che la funzione f
sia tale che:
n
se
i
~
r
c
U
Ci
= 1.
Ì=l
Notiamo che supporre ìa il ,.t1zic,J1C f con le suddette proprietà, è come
dire che gli argon1enti el, ... , Cn sono una partizione dell'insielne I.
Il supporre l'esistenza della funzione f è corretto, perché alnle.no una
funzione f, che si può indicare con f, esiste ed è qu'ella che manda una
parola chiave in un argornento ei, costituito da una sola informazione
elcrr.2ntare, cioè:
dove
e la numeros·:ti:t n = e. La funzione f è quella che detennina la parti~
z;one più fme dell'insieme I: sarà da ricercarsi, invece, una funzione f
60
Al, AGOSTI - 1\1. E. CIWSCE;-.,:n
~
F. LESTUZZI
H
P. SCHIAVON
che determina una partizione lneno fine del1'insien1e I così che sarà
necessario un numero inferiore di parole chiave per designare gli argomenti.
J
Si è adottato un sistema di ponderazione per spiegare quanto il
contenuto selnantico di una parnla chiave viene esaurito in ogni docu~
mento al quale essa viene associata. Quindi nella fase di input delle
informazioni bibliografiche per ogni documento si introducono, oltre alle
informazioni usuali (ti''llo, a'ltore, casa editrice, anpo di pubblicazione),
le parole chiave ad esso associate, ciascuna con un suo peso assoluto;
il sistema automaticamente assurnerà nulla rz.ssocìazione con tutte le
altre parole chiave.
I dati, relativi al sistema di ponderazione, costituiscono una matrice P = Il Pik Il di ordine mXn, nella quale ad ogni riga corrisponde
un documento e ad ogni colonna una parola chiave; il generico elemento
pjk è il peso relativo associato alla k-esima parola chiave associata al jNesimo documento Inf8tti chiamato "ik il peso assoluto che viene intrvdotto
m
in fase di input
Pjk
=
"jk /
L
m
"jk
j=l
e
L
Pjk
= 1, quindi la matrice P è·
i::=l
normalizzata per colonna. Il numero dei documenti, m, non è fissato a
priori, se fosse fissato non si potrebbe tenere conto dell'aumento del fondo
documentario della biblioteca; così pl:!fe il numero n delle parole chiave non è fissato a priori, questo per permettere !'introduzione di nuove
parole chiave, via via dle entrino nel lessico o che siano necessarie
per individuare il contenuto di nuovi docurnenti e~).
Il secondo n . . dodo di classificazione adottato viene denominato in
letteratura [2] sistema di classifica;done ad argomenti principali con
codici associati. Poiché l'utilizzazionel sperimentale del sistema DOC-4 si
è effettuata c1assiBcancio dOCluuenti che inreriscono all'informa"fica, si
è deciso di utilizzare il sistema di classificazione acloi"tato dall'ACIvI, la
cui dtima stesura è del maggio 1976 [4].
Una caratteristica di questo tipo di sist.en1a è qucLa di suddivi~
dere gli argomenti in albcri di piccole dimensioni completamente distinti
l'uno dall'altro; i termini d'indagine si fanno corrispondere agli argomenti che non hanno ulteriori suddivisioni (argo:1enti atonlici C0111e per
la classificazione per parole chiave), che suno le foglie di cluesti piccoli
alberi; quindi un libro può essere attribuito esclusivamente alle foglie O
(*) L'unica limitazione riguarda il val.ore massimo di m e di n ed essa
è dovuta al quantitativo di memoria dì massa disponibile.
61
SlSTE!'.H INFORMATIVI: DOtA E SC1U:'X
sottocIassi di cla-ssificazione. Ciò è C0111e dire che gli argolne:.1Li che
corrispondono alle foglie o sottoclassi sono disgiunti fra di loro e
l'unione di tutIi gli argolTlcnti costituisce un :icc)rimento dell'ins1.eme
I = {i" i" "', i,} delle informazioni elementari inferenti alla scienza
cui si riferiscono i documenti della b'blioteca in esame, Chiamato
S = {s" ,.., sd l'universo delle sottoclassi, la generica sottoclasse Sj designa:.'~'.rgomento ej sottoinsien1e di r. Chialnian10 E::::: {e'l} e'l, "'} e'I}
l'insieme universo degli argomenti, Considerando S come dominio e E'
come codominio, esiste una funzione biettiva g tale che:
g:S->E'
L'util'zzazione di una classiEca;ione di questo tipo porterebbe a
collocare ogni documento in un'ullica sJttoclasse, cosi facendo, però, si
verrebbe a preferenziare l'argomento trattato in maniera preponderante
nel documento e quindi a perdere le informazioni riguardanti gli altri
argomenti trattati nel documento, Per conservare la caratteristica. della
interdisciplinarità di trattazione degli argomenti all'interno dei' documenti si è data la possibilità dell'associazione di un documento a più
sottoclassi, Anche questa associazione viene quantificata mediante un
sistema di ponderazione che spieghi \ quanto il documento è legato 2d
ogni sottodasse alla quale viene associato.
Questi v3.~ori veng"ono organizzati
nella
n1atrice R::::: l,II' riì" :.",' d'or.....
I,
dine l X m; dove l è il numero delle Sbttoclassi c m il numero dei
documenti, come sopra, Chiamato PIi il peso assoluto che viene introdotto in fase di input, fra le infJrmazioni riguardanti il j-esimo docu:::1cnt'C/, il {.:;enerico elemento ri) della matrice R {; il valore relativo, che
rispecchia il legame fra il documento j-esimo con la sottoclasse i-esima,
che
vi~nc
calcolato
rij
=
l
pij /
2: Pjj,
i=l
l
L
i=l
[ij
= 1,
e quindi anche la n1atrice
R ha la particolarità di essere norrnalizzata per colonna.
Le informazioni raccolte con i due sistemi di cìassificazionc esposti
vengono riunite nella matrice C = ii Clk il di ordine lXn prodotto della
matrice R per la matrice P, Con passaggi elementari si dimostra che
l
anche la matrice C è normalizzata per colonna (z:
Cik=
1), cioè dà la
Ì:::::l
distribuzione delle informazioni individuate dalle parole chiave rispetto
ane sottoclassi. Il generico elemento Cik della matrice C, che è una ma-
62
AI. ,'1GOSTI - ;VL E, CHESCEN1'J - F. LESTUZZ[ " P. SCHIAVON
trìce di classificazione, indica quantiIativan:ente il legmne che intercorre
fra la sottodasse i~esima e la parola chiave _k~esin1a. Per lin1itare notevolmente l'occupazione di merlloria di maSS2 si è el.aborate li!} fil('N
todo che permette di aggiùrnare la matrice di classiflCazione e (quando vengono introdotte le inforn1azioni relative ad un nuovo documento o quando i valori della e devono essere modificati perché sono
state introdotte delle informazioni errate), senza dover memorizzare interan1ente b luatrice P = lipij l!. Si è d.lmostrato che è sufficiente la
n1emorizzazione del vettore mv;:;:;
Il
m
Vk
.
i:
m
eli ordine n, dove
ill
Vk = 1: TCjk '
j~l
Se si indica con C':;::; 11 C'jk li la luatrice che si deve ottenere dalla
= li Ci"!! dopo la introduzione delle informazioni relative al (m + 1)-esimo documento, si dimostra ehe il generico valore c'" è uguale al valore
calcolato mediante la formula seguente:
e
m
C'ik
=
Vk
Cjk • - - - - - - tn Vk
+ 1':01+1; k
+
Se si indica con e" = l! c"'" !I la matrice che si deve ottenere dalla C
tenendo conto den'estrazione dal sistema di informazioni errate introdotte in relazione al dOCUlnento r~esin1o (qualsiasi), il generico valore
C"ik si dimo'stra che è uguale al valore calcolato con la formu~a seguente:
\
C"ik
=
,
Cik .
nlVk -
- - - - - . fir.
n:rk~
3.3. Il linguaggio di ricerca.
La descrizione del linguaggio per la Ticerca per paro:,: chiave, utilìz
zando la forn1u norn1ale di Backus) è la seguente:
< don1anda>: : ::::;: <frase>! <frase> < continuu?ioni>
<continuazioni>:: = <continuazione> I<continuazione>
< continuazkni>
<continuazioni>:: = <operatore> <frase>
<frase>: : = <operando>!( <frase»1 <frase> <operatore>
<frase>
<operando>:: = <lettera> I<lettera> <oper"ndo>
M
SlSTE\!l 10:.FOR\lXflVl:
noc-4
E SOUX
63
(1)
<operatore>:: = <spazio> O <spazio> I
<spazio> E <spazio>!
<spazio> NON <spazio>
<spazio>::=b
Una caratteristica del linguaggio che non può apparire dalla (1) riguarda l'operando. < operando> è una qualsiasi parola di senso compiuto appartenente ad una delle seguenti quattro lingue: italiano, inglese,
francese o tedesco; la parola chiave è formata con le ventisei lettere
dell'alfabeto inglese, quando è una parola composta come spaziatore
viene usato il trattino, se si dev", accentare viene utilizzato l'apice.
L)utente può decidere di efretl;''-lCtre ] J. sua ricerca utilizL1ndo parole
appartenenti a una sola di qu.este quattro lingue, in questo caso specificherà al sistelna la lingua nella quale vuole effettuare la ricerca;
oppure specificherà al sistema l'intenzione di utilizzare nella stessa stringa di ricerca parole appartenenti alle diverse lingue. Nel caso della
ricerca multilinguc, il sisten18 è in grado di segnalare, se esistono fra
le parole chiave, on10ninli on}ografì ma in lingue diverse (il sistema
in input di informazioni non li ascetta nella stessa llngua); in questa
eventualità il sisterna farà una specifica domanda all'utente per sapere
in quale ling a deve considerare quella parola chiave. La frase di richiesta dell'utcl1le consiste, éomc risulta (Iallo (I), in una espressione formata da una successione di parole chiave legate fra loro da operatori
logici. Si è preferito adottare la scrittura usuale degli operatori logici,
per Eon introdurre un simbolislTIO che poteva f~ssere ostico all'utente.
La stringa ViC110 rbolta da sinistra "ersa destra. È possibile modificare
la sequenza cbe risolve l'espressione utilizzando le parentesi.
L'utente, se non è soddisfatto della risposta avut8 dal sistema alla
sua prim? richiesta, può o riformularc la domanda con <frase>, oppure
aggiungere una <continuazione> per modificare la risposta ottenuta;
questa possibilità può èssere utilizzata dall'utente in D1aniera iterativa,
come risulta dalle (1).
Aiia domanda dell'utente il sistema dà una prima risposta segnalando quali sottoclassi, in base al secondo ~ipo di classificazione utilizzato, sono state selezicnate; ogni sottoclasse Ss è corredata di un peso
64
i\1. AGOSTi -,\1. E. CRESCE:\:TI - F. uoSrVZZI - f'. SCI-IlA VO"
che rispecchia l'attinenza di ogni sottoclasse seìezionata con la
richiesta dell'uteme; quindi la risposta del sistema sarà del tipo:
\V s
k
Con
L w, = 100.
li""l
La seconda risposta del sistema è l'elencazione elei dati essenziali
relativi ai documenti selezionati in base alla richiesta dell'utente. Ogni
documento D, è corre1ato (la un coefficiente C!." chiamato coefficiente
di attinenza, che spiega l'attinenza del elocu.nento con la richiesta dell'utente, inf",tti il coefIiciente Cl, viene calcolato in base alla formula:
k
ti D t
•
(f.l
=
k
,,:::01
W5
'
rst ,
O:s:: (.( :s:: 100.
3.4. Struttura del sistema.
L'organizzazione del sistema è stata progettata considerando specifìcatalnente le esigenze dell'utente, co:mc. è già stato detto, e la possibilità
di assicurare qualsiasi tipo di n10dificà delle informazioni archiviate.
I file del sistema che vengono utilizzati più frequentemente durante le
richieste dcii 'utente sono i file AUTORI, TITOLI, CASAED e KEYWORD,
che si sono quindJ costruiti C0111e file randorn, indirizzabili n1ediante la
tecnica hash. La funzione hash utilir.:zata è quella della divisione [5];
C0111e legge di scansione è stata sceltà~ la legge di scansione quadratica a
coefficienti pesati [6] in quanto si riesce a elin1inare il fellolncno del~
l'agglomerazione prinlaria c anche quello dell'agglorn~razione seconda~
l'ia. Gli altri file del sisten18 30no di suppc.~to ai f:.le preude:~.temente
elencati e Jnediante ùn sish.~n1a di punta tori vengono irldir~zzati dirt.:~ta­
mente, i principali eli questi sono il file MATCLAS, che conticne le inFo1'n1a",joni della lnatrice di classificazione, il f1ìe se rLIB che contiene le
informazioni relaiive 21 sistema di ponderazione utilizz8to per quanti.fi~
care le info1'n141z10ni re1ati'.'e all'allribuzione dci docunlCnti nc1ic soHodassi della classificazione adottata; l'occupazione su ,memoria di .. :lussa
relativa a questi due file viene estre111anlente contenuta 111caiante particolari tecniche di compattazione. Altri file, come il file ORDER e il file
CLASS, permettono una starnpa più -..'c10(:0 delle liste alfabetizzate delle
parole chiave e degli altri cataloghi di c~li dispone la biblioteca.
SIsTEi\lI lXFORMATIVI:
bocA
E SCRIN
65
Tutte le. informazioni contenute nd file sono state organiz."ate in
lnaniera tale da ~vitare ogni ridondanza.
Ne~ file lvIINIFIL vengono archiviati sistema+icamente da ~ sistema
i dati reiativi al processo di archiviazione delle informazioni (ad es. il
numero dei documenti, in relazione ai quali sono state introdotte le
informazioni, il numero di parole chiave, il numero di case editrici
diver:·, fra loro, etc.) e i dati relativi alle scansioni che si sono effettuate
nei file random, per permettere delle valutazioni statistiche in relazione
aìIa lunghezza di ricerca in questi file ai responsabili del mantenimento
del sistema.
I! sistema è stato implementato nel linguaggio FORTRAN IV; l'occupazione del sistema su disco è di quasi 80 K bytes; l'occupazione massima di memoria è di 38 K bytes facilmente riducibili a 26 K bytes. Utilizzando un unico disco da 2,5 M Bytes come supporto per l'archivio
delle informazioni e per il sistema, si possono archiviare informazioni
relative a più di 7000 documenti bibliografici.
3.5. Conclusioni.
Si sono considerati i possibili sviluppi futu.-i del sistema DOC-4.
Si sono considerate, in particolare, le possibilità di modificare la fase
di bstallazione del sistema, in maniera tale chc, oltre ad avere la possibiìità attuale di stabilire inizialmente le dimensioni dell'archivio delle
inforn1azionC si possa rendere il siste\ma in grado dI gestire dati di tipo
àiverso e la rossibilità di rendere il sistelna n1ulti-user.
Si consickrerà la possibilità dell'aPl'ìlicazione di metodi di cluster
é, nalysis per la realizzazione di una classificazione automatica
delle
parole chiave.
3.6. Ringraziamenti.
Gli 2'1tori desiderano ringraziare il Dr. Livio Coluss; per le utili
discussioni. sulla definizione del metodo di classificazione.
4. - CONCLUSIONE.
Qui di seg;..lito sì riportano due esempi ài interrogazione ai due
n:d presentati.
siste~
66
]\f.
AGOSTI - 2\1. E.
Cl~ESCENn
~
F. LES-rUZZI
~
P. SCH lAVOi\!
4.1. Colloquio COn lo SCRIN.
L'utente sta cercando t~stì scdtti da PIERCE, che tratthlo di Grmn~
malica trasformazionale, oppure sulla Teoria di Chomsky (fig. 2).
Sì nota la dOlnanda posta dctll'utente ed una serie di rnessaggi sta111pati dal sistema (questi sono immediatamente riconoscibili perché iniziano COn "**).
Lo SCRIN ha trovato nella base dei d"ti 43 testi che trattano la
Teoria di Chomsky, 39 testi sulla Grammatica trasformazionale e 3 testi
scritti da P1ERCE (si osservi che le iniziali del nome non erano state indicate nella domanda).
Alla fine di tutte le operazioni logiche rimane un solo testo.
Le informazioni archiviate vengono stampate su richiesta (i:~h':QD.E_
RY? ALL). Si può notare che il testo contiene entrambi i descrittori
richiesti; lo SCUN ba tenuto conto di questo fatto quindi il testo è stato
contato una sola volta.
4.2. Colloquio col DOC-4.
L'esempio, qui sotto riportato, è relativo a tre diversi tip; di ricerca
di infonnazionc che l'utente può\effettuare al sisterna DOC-4; DOi\!lANDA
(rutenie può jnté::"togarc il sisterna mediante una frase); AUTORE (l'uten~
te richiede i documenti scritti da un dCl:erminato autore); CASA EDITRICE (l'utente richiede la lista dei Bocumenti editi da una determinata
casa editrice).
I D1essaggi stan1p8ti dal sisten1U sono preceduti dn « = = >".
:-Jell~l prin1a ricci.ca (fig. 3a) l'utente desidccD. indiviuuart- i 6:)culT'enti
legati aHe paTole chiave Data-scìences oppure Data-structtU,--~s (si noti cb.e
la parola chiave Data-scicnces si è utilizzata neUa ch:tssifìcazione dei docun1enti introdotti, col significato che si raccon1ane:L in [4]).
Il sisten18 ha sclezionaLO le tre sottoc1z.ssi uata-structurcs con attinenza 42, Generale di InfolT1atìon Retrìeval con attinenza 34, Data-Base
con attinenza Il; la sornrrta dei tre pesi non raggiUtlge il 100~ questo
significa che il sisterna ha selezionato altre sottodassi che non vengono
stan1pate per la loro scarsa signiflcati"'ità. Ora il slstenla chiede all'utente
se è interessato 2d avere le informazioni relative ai documenti selezionati; alla risposta afferrnativa fornisce'il nun1cro totale di dOCUD'lenti
67
selezionati e inizia a listare le:: i11formazioni. Ogni documento è co..: redato
dal codIìdentc di atlinenza alla don1anda (si noti che il sisten1a li fornisce ordinati rispetto a questo coefficiente); la 'tampa viene fatta di
cinque in cinque docun1cnti.
Al termine dcll'esanle dei dOCUDlentl il Ststen1a chiede se si è interes~
sali alla fOrlT1Ulazione di una dornanda continuzione (fig. 3b); alla risposta
afIen'j,ttiva 11 sisten1a scrive: "= = > CONTINUAZIONE". L'utente, ora,
vuole escludere le informazioni individuate dalla parola chiave Data·base
(quindi scrive NON DATA·BASE). Come si può vedere nelle due risposte
del sisterna, di conseguenza, vengono lTlodificati i valori di attinenza e la
sottoelasse Data·base noe viene più selezionata. (Si noti che l'ultimo
dOCtllnento con1pare Glnche in questa lista perchè è associato alla parola
chiave «data~structures»).
Infine si danno due esen1pì di ricerca non per parole chiav(' (fig. 3c).
La prima è una ricerca per autore, si desidera l'elenco dei dOCU111enti che
hanno p','r autore Knuth D. E. e il sistema ne effettua l'elencazione; la
seconda è una ricerca per casa editrke, la Prenticè-Hall, ~ il sistema
effettua l'elencazione dei documenti editi dalla casa editrice data.
68
Go 'H>
AL AGOSTI - .l\{. E. CHESCEi\TI • F. LESTUZZr - P. SCHIAVON
REA[IY
Pl ERCE • .", • FINO [ TRFlNSFORMAT I OiiRL GRRMMAR • OR CHOM'SKY (THEORY) J
O~Q
~~~
vH
HO>
1>U
}ERRCH FO~ ~PIERCE,
FOUND: PIERCe,J.E.
3 TEXT'i; 7'QUN(IS
5.EAF'CH FaR ~TR.ANS'FORMRnONRL GR:iM~lHR
cQur-i[l: TRANSFORt1ATImlAL GRRMr1flR
."'$o 33 TEXTS FOUNOS
+(>Q
SERRCH FOR "(HOM$KY<TH!?ORY)
"H FQllN[I:
CHO' 'SKynHEORY)
43 TEXTS FOUNDS
••• ONE TEXT FOUND
~~. LIST o~ TEXT FOUND$ 1 (YES/NO) YES
• • 0- TEXT
l DF 1
*(>00
(lO(l(l(EE03~~
><0010145
E"d::
PIE:RCE. J.E.
F Hl IT I 'vE \1$ II'lF INITE STATE GRRMMARS
• • \1'
QUERY ALL
(J(tCt(lllf;:03520
:>«(101014'5
E,E
PIERCE.J.E.
FIN1!"fVE V$ HiFHiITE STArE GRR!'lMAR$
IN: L INGi..lr STIOS
THE f-lFlGlIEO 1971 "s':"
.072-074
; TRA:'i $FQRMAT I DNA L GRA!'l!'lAR, GENERRT I Vs GRAMMFtR s CHOM$KY <THEORY~ 1F I N I TE STATE
GRF1I'H1FlP1 SENTEI'lCE, DESCR IPT! VE ADEQUFlctt'
Fig. 2.
SlSTE)."Lt I::\l'OR!I..IATXVI: DOC-4 TI SCRIN:
==)
~A
SOTTOCLASSE= DATA
s:~
STATA 'SElEZIO!'lFlTti Cml Uri
69
STRiJCTIJRE~
VALO;:;;E
'iTTII'jnCA= 42
IiI
:.=> LA SOìTOCUiS'S~:::;; 6-INFOR~iHT1ml RETRIEVAL
E" ST.eHF! SELEZIONATA C·O!'i lJN '.)ALGRE DI ATTHlEN2F1= 34
==) LA SOTTOCLASSE= DATA BASE
E~
STATA 'SELEZIONATA CON UN VALORE DI
ATTII'iEK2A'" 11
=='> VOLETE LA STAl'lPA, DELLE HJFORMAzrOri! III::! DOCUMENTI SElEZIOI"IATI?,(SI O l'IO>
?
SI
==} SQi'iD SiRT1 SELEZIQNRTI
==} LISTA !lEI
17 I 10CUI'lENTI
DOCUMENTI SELEZIONATI
:
CO.:;:':-PICrEl'lTE Di ATTINENZA RLF'H.';= 42
I l'iFO.ç;,..rAZ r 0,'1 r i\'ELAT I VE 8l DOC:UI'lErnO:
cn:_L~CF\Zrn";E: H12.3
tiUl'lQ T)l STAM:::'A: 1968
TI;: TH:; ~r.::T OF COr1PUTER PPOGRRI~M:N''; - VO'_.l
>::='}
"VT: KNUH.;, D.E.
CASA ED.: ADDISON-WESLEY
="'r
CCEF"FICIENTE Di ATTUiEl'IZA AL?HA= 34
ì,"lFf)RMAZIONI PELATI VE AL DOCl)v,aiTo:
o: CLLDCFlZ i Ot'lE: U3
,~j'j~iO DI :$ TAMPA:
1'9 ('3
Tr T: I NPQRMFlT I D.''i-RETR I EVAL
AUT': DOur:rlIkoFP.B.
CASi:, EII.: A1.lERBACH
==;:.' (GEFFT('IENTE DI F-lTTI.'iHJZA
FilPHfi= 34
PELATI VE AL DOCIJNErno:
LI?
Al'itiD III STAMPA: 1973
rNi="G~r-;AZIOr-i!
I:OLLGCRZID:--lE:
TI T: IN~JRMATION SYSTEMS
AUT: vlCkERY,B C.
CASA ED.:
~=>
BljT
l~
r:;:RI,IORTHS
CO~FFICrENTE
DI ATTINENZA
1M;:: O~:"r",iiL I G:'i!
RéLFlTI VE AL DOCIJMEl'iTO:
COLLCCAZIO~E:
TI1: DiirA
/1)::
Tl0
81
ANNO DI STAMFRi 1975
STRUCTURES
;::;:~Zr:'SSlr:.
CHSf1 ED.:
ALPHA=
r.
HCAD~MrC
==:> COEFFICIE?--:TE DI FiTTli'iEI'JZA FtLPHFi= 31
I!''=ORl'lAZ IGI'l I RELR'j 1 VE Al DOCVVIEtHO ~
COLLOcriZrr'{E: U15
AhNO L! STAMPR: 1975
TrT:
rHHA f,ASE DE:SCRIPTION
RuT:
RA. '·IV.
CASi'1 Er:.: l'IORTH-HOl.LRND
=~>
VOLETE CHE LR STRMPA DELLE rNFORM8ZION! CONTINUl?<SI O NO)
? i'lO
Fig.3a.
M. AGOSTI ... 2\!. E. CRfSCEXTI • F. LEST(JZZI . . P, SCHIAVON
70
='="> V[iLETE: F"ORRE UrlA DOf'll'1I'JD8 COf-nINUFlZIONE? (SI O
~
:1
'
.",='> CQriTJ.IJIJAZlOilE
==)
~
~jQ)
NE'Hl DRTF:-:E:A;;E
LA ZDTTDClAS!E= G-IrIFDRMRTrDN RETRIEVAL
E"
nATA
'SELEzrm~ATA
emi uri vALORE DI ATTHjEl'lZfr· 43
"' .. > LA ::OTTOCLA$?E"" DATt=< STRUCTURE.S
E" :TFHR 'SELEzrmIATFI CON UN V,ilO!':E DI ATTIi'{EN2P.= 41
==';. vOLE:TE LFl STArlPFI llELLE r l'i: DPi':AZ I Di'l I DE I TiOCUl'lENT I SELEZ I ONAr!? <:$ - a NO)
? 5::1
==> SONO STATI SELEZIONATI
==)
LI~TA
DEI
16 DOCUMENTI
I:OCUl>;ENTJ SELEZrmlAT!
:
==,) COEFFICrEllTE DI ATTINEi'iZA H!..PHA= 4:3
JNFC:".\'MA?!Oi'n f"'ELFlTII/E fil DGCUl'lENTO:
cou.. CCF+ZfG;'iS:
Tli:
1J?
tiriNO DI -STRl'lPA:
1973
INFDRMATIGN SYSTEMS
çlL)T: VICKERY.B..C.
C'15A ED.: BIJTTEKl;'.ORTWS
==) CO;::FFiL:IHfTE DI ATTUiEiiZli H!-PHA= 43
IN;::CRl":(~zrONI
COI_LCCF;ZIGi'r2:~
U?
RELATIVE AL DOCU11EìrTO:
P.ril"{Q DI STRI';PA: 19r3
HT:
1i'l·cGI?I';FlTIDN-RETRIEVF\L
AUT:
DCUDNjKOFF~B.
CFl$A ED.:. A:JERBACH
==> C8:::FFICIE1"HE DI AT""'HIEriZA FlLPHA= 41
T1'i'::O).(~~;:;Z I O,'i I RELAT l VE AL tIOCUi1EìiTO:
r.iJLLOCHZIO;~;E: H12'3
AtlìlO DI 'S.TAMPA~ lSt68
TIT: THS ART OF COMPUTER PROGRAI'1l1ING - VOL.l
AUT: kNUT~.D.E.
CA:S'; Er'.: 8j)[II$Orl-1oIESLEY
==)
çD~FFIC rEìr;'E
IN:::GR~'lHZImJI
COLLOChZIONE: UiD
\
DI FtTTIIiENZA FiLPHR= 131
RELATIVE AL DOClJrtENì'iJ:
:HN~O
DI
STR~PR:
1968
TIT: INFGi;;:r-::=JTIml RETRIEVAL S'l'SHi:l'";$
A:.IT: U"NCRsn::R,F.I;,l.
(ASA ED.: WiLE\'
==> C:,~::':F.clC~EN,E DI RTTHiENZii 8LPl-"IH= 30
.
U'i;;CF:MiiZIONI RElATlVE FlL DOClj,~1ENrO:
CCl..LOCHZIONE: 1J1'5
Ati NO DI Sl'AI1?A: 1975
"TIT: DATA BR SE DESCR1PTION
SlJT:
>;H. \iV.
Cii SA ED.: NORTH-HOLLFiND
.=",,)
VOLETE CHE LA STM1PR DELLE rW:'"ORt"lA2IGI'JI CONTIl'iUI?<sr D NO)
? ;';0
==)
VOLETE PORRE UNA Dar'IRNDA CDNTIf'{UFì2IONE? <sr ,D NO>
?f'iO
Fig, 3 b.
SISTEi\lI I:-\FQlù1ATlVI: Doc-4 TI SCIH>'::
::::=)
CI SONO
==>
T I PO DI R! CERCA :
I~LH:E
==) AUTORE:
CQLLOCAZrCHH:::
RrCHIESTE?(SI O
~m)
AUTORE
KNUTH,D.E.
R!5'3
AHl'lQ DI STRPlF'A: 1974
'$n~U(:TU';:ED PROl3RAi'ti'IIf'iG !JITH Goro STFlTEMENTS
;;I).T: kNUTH. I). E.
CFISA EI).: SrANf=ORD Uf'j.
COLLOCRZIONE: H12~:
FINilO DI $TRft,PR: 1968
TIT: THS" Hl\! OF CDr'l?UTER PROf;:~Ar1MING - VOL~ l
AUT: KN!,IT)-'~,;).E.
l:~,T:
CR:')'; ED.:
riDIIISCi'{-WESlEV
COLLOCF.ZICNE:
TIT: THE
8 1)T:
M~T
ANl'lO DI S':AÌ'iPF!:
H123
DF
~OMPUTER
197:
PROGRRMMING - vnLo3
!<i1 I.lTH.D.E.
CASA ED.: ADDIsorj-WESLEV
::::=)
CI
SONO ALTPE RICHIESTE?<SI
o NO>
? SI
=::::)
rrF'O DI RICERCA:
Cfi'SAEDITRICE
==> CRSR EDiTRICE: PRENrrCE-HALL
COi..LC(:Fl2IOn:S: v;-;
H~ir;O DI STA~lPR: 1975
T r T: [lYNFi"l I C I (-iFDRt'iAr l O~{ FiND L r BRARY PROCESSI N.G
R~IT:
~8LTDN.G.
\
CASS ED.: PRErITJCE-HALL
COl..LOCAzrCN;;::: U4
8Nrm Dr S':TFH1PA: 1971
TI,: TH~ ::"':MRT f.'ETR!EVr'!L SY'S:TEM
FiUT: $'::' l. TCN. i:;.
l~
CASA EG.: PRENTICE-HALL
CGLLOCFi2IG:'iE: U13
ArirtO Dr STRl'iPA: 1975'
TIi: COKPUTER DRTA-BASE ORGANIZATION
AUT: l'jRRrrl'19~!.
CASA ED.: PR[NTIC:-HALL
==) CI SONO RLTRE RICnESìE?(SI O NO)
l' NO
STOP
R
Fig. 3 c.
71
72
11. AGOSTI
M
M. E. CR.ESCENTI
M
F. LESTUZZ!
M
P. SCHIAVON
B l B L l O GR;\ F lA
[1] MICHAJl.OV A. L, CERNYJ A. L, GILJAI{EVSKIJ R. S.
M
Principi di informatica. EdiM
tori Riuniti, Roma, 1973.
Elemerdi di organizzazione delle il1.formazioni. Franco Angeli Editore, Milano, 1972.
(3] LANCASTER F. W. - Inforlnation Retrieva! Systems. Iohn Wiley, 1968.
[4] Categories oi the Computi,'g Sciences, Revised Classificatiol1. Systr;m ;01' Com·
puti/ig Reviews, CR of ACM voI. 17, n. 5, maggio 1976.
[5] MAURER y."r. D. An Improved Hash Code for Scatter Storage. Conuuunicatiol1s
of ACM, val. Il, pagg. 35-38, gennaio 1968.
[6] BELL J. R. - The Quadratic Quolient ;'.iethod: A Hash Code Elil-ninating S'econdary Clustering. Communications of ACM, val. 13, pagg. 107-109, febbraio 1970.
[7] TREUSCH B., LESTUZZI P., ROVA S. - lnformation Storage and retrievaZ. Modello
di un sistema integrato. W. P. Fondazio:1c Dalle Molle, Venezia.
[8] LESTUZZI F. - SCRIN: Un sistema colloquiale di ritrovamento dell'informazione.
Congresso AlCA 1975, Genova.
[9] LESTUZZI F. ~ SCRIN: System Reference lv'JI'ì1ual. R•.pporto interno C:::lltro Studi
della Barbariga, Stra (VeIcezia).
[lO] AGOSTI :1/.1., KING M., LESTtJZZI P., WETTLER - Ulteriori sviluppi dei due sistemi di
documentazione automatica SCl?IN e DOC4. Congresso AlCA 1977, Pisa.
[2] DA RIVA D., RICCI G.
M
M