F. L""`<:)TUZZI
Transcript
F. L""`<:)TUZZI
J\ ~\ N. 133 N. AGOS'l'I H. E. CRESCENI'I F. L""'<:)TUZZI P. SCHIA,,:)N SIS'l'El>U INF')R,\VlTIVI: DOC-4 E SCRIN Estratto da "I QU?'Cierni òell'Elaborazion~ Automatica" n. 2, giugm.. 1978, pp. 49-72. , I Facoltà òi Scien7.e Statistiche Demografiche ed Uni.versit.à deg.? i Studi Via del Santo 22 - 35100 - PADOVA (Italia) Att~ariali SISTEMI INFORMATIVI: DOC-4 E SCRIN· MARISTELLA AGOSTI (Istituto di Statistica, Università di Padova) MARIA EMANUELA CRESCENTI (Centro di Calcolo, Sezione Scientifico-didattka, Ur.'.versità di. Padova) FRANCO LESTUZZI (Centro St,udi della Barbariga, Strà, Venezia) PAOLO SCHIAVON (Centro di Calcolo, Sezione Scientifico-didattica, Università di Padova) Ricevuto in data 5 h,glio 1977 Si descrivono due sistemi di documentazione automatica messi a punto su un minicalcolatorc. Entrambi i sistemi sono colloquiali, richiedono poca memoria per il loro fUl1zionamen~ to ed hanno dei tempi di risposta estremamente bassi. Benché l'organizzazione dei dati e la logica interna di funzionamento '<;'8.no molto diverse, entrambi i sistCl.di utilizzano lo stesso li:tguaggio di interrogazione per facili~ tare l'uso all'utente. SOMMARiO - This paper describes two Information Retrieval systems develop~ ed on a minicomputer. Bath systems operate 011 real~time basis, require size mernory small and have a low respanse time. Though data organization and iinternal logic are very different, both syslem:: have plain and easy to lise query language. ABSTRACT - , I 1. - PREMESSA. L'arci"viazione ed il ritrovamento dei dati è attuaÌJnente uno dei più importanti problemi dell'elaborazione automatica delle informazioni. Quando si pensa che esi,tono biblioteche con milioni di volumi risulta chiaro che nessuna lecnica manuale è in grado di garantire un aggiornamento ed un accesso in tempi ragionevoli. Inizialmente il pr'èblema è stato studia'.o solo per gli archivi di grandi dimensioni (biblioteche nazionali, istituti bancari, ecc.). 50 1\J. AGOSn " ì\.t. E. CRI)SCENTI - l', LESTUZZI - P. SCHIAVON Esistono però anche, e sono anzi più nUDlerosi, archivi di din1cnsioni medie (fino a qualche' decina di migliaia di dc'cumenti) per ; q118li una procedura autonlatica può essere estrenlalt.ente vantaggi0sa: si tratta degli archivi che defimremo medi omogenei, in quanto raggruppano documenti che hanno fra di loro una elevata 8.ffinità. Rientrano per esempio in questa classe le biblioteche di istituto universitario (i testi normalmente riguardano argomenti specifici) l'insieme delle cartelle cliniche di un ospedale, le fototeche, le cineteche, ecc. Vogliamo ora descrivere due modelli svi'.uppati per le biblioteche di due istituti. Si fa notare che anche se più avanti si farà riferimento esclusivamente alle applicazioni specifiche già sviluppate, gli stessi modelli possono essere facilmente utilizzati per altri archivi medi omogenei. Le ricerche in una biblioteca di istituto sono essenzialmente di due tipi: 1) un testo del quale si conoscono già i dati bibliografici essenziali; 2) un insieme di testi che sono collegati fra loro da connessioni logiche particolari e difficilmente prevedibili a priori. Xl caso 2 è il più frequente durante la fase iniziale di documentazione di un nuovo lavoro. In questo 'caso infatti si ricercano per esempio i libri che trattano di alcuni specifici argomenti, o che sono stati scritti da un determinato autore eventnalme~te eliminando quelli pubblicati prima di una certa data. In base ai risultati di questa ricerc8 si passa poi al ritrovamento del testo che interessa. Si può notare quindi che le esigenze dell'utente di 'lueste biblioteche SOGO eli tipo partic.ola"e: infatti m,rIte volte il rice;-catore porrà :a sua donlanda in ternlini piuttosto vaghi, salvo precisarla ulteriormente quando avrà assunto nuove informazioni. Entranlbi i 1110delli che ve.rranno descritti più. avanti sono stati studiati in particolare per rispond(:re a questa eSJ.genza: si tratta cioè di sistemi colloquiali nei quali l'utente interr0ga il calcolatore ed ottiene in risposta un insieme di documenti. Egli può successivamente modificare la propria domanda in modo da renderla più precisa, fino ad ottener ~ u oa risposta soddisfacente. I sistemi consentono inoltre di ottener~ informazioni più dettagiiate su testi specifici. SlSTE;VU INFORMATIVI;· -DocA E SCiHN 51 Tutte quest" operazioni avvengono in tempo reale. Il tempo di attesa per l'utent.e è quindi di pochi secundi. Un ulteriore aspetto estremamente intercSS2.1te di questi due modelli è che sono stati sviluppati utilizzando un minicalcolatore. Questo fatto è molto importante sia perché dir.:;ostra quali siano le possibilità attuali dei minicalcolatori nella gestione di banche di dati, sia per le appli:, zioni pratiche, in quanto le caratteristiche della macchina sono perfettamente compatibili con le possibilità e le esigenze di una biblioteca di medie dimensioni. Il calcolatore utilizzato è un NOVA 840 con 80 K bytes di memoria centrale (quando i modelli sono stati svilupp?ti e messi a punto la memoria disponibile però era di 64 K bytes). La memoria di massa è costituita da due dischi da 2,5 M bytes. Le periferiche collegate sond un terminale video, un terminale stampante tipo teletype funzJ.onante a 300 bauds, un lettore di ~chede, un lettore ed un perforatore veloci <1; bande. 2. - Lo SeRIN. 2.1. Introduzione. Lo SCRIN (Sistema Colloquiale per la Ricerca dell'Il1formazione) è stato studiato e messo a puntoper\ una biblioteca specializzata (di linguistica). Le sue caratteristiche però sono tali da renderlo adatto a trattare un c:ualunque archivio di dati (*) che debba essere consultato secondo schemi non prevedibili utilizz~ndo particolari parole chiave dette descrittori. I descrittori sono termini associati ad ogni testo e che ne descrivono in q'"alche modo il contenuto, o hanno col testo una attinenza logica. A differenza dalle normali parOle chiave un descrittore può anche non essere contenuto nel testo a cui è associato. Un descdttore può essere costituito da più parole (al limite da una frase intera). Per esempio per quest'articolo alcuni possibili descrittori sono: ('~) Più avanti si parlerà sernpre j~ testi implicitamente facendo riferimento al sistema attualmente implernenl.uto, [ermo resta.Jdo che le stesse considerazioni si possono fare per archivi di dati cl tipo diverso (es. leggi c decreti, cartelle clinkhe, ecc.). 52 ;\f, i\{)(lSTI . j\,L E. CRESCENTI - F. LESTliZZI . P. SCHIAVON Information retrieval, minicomputer (applications), hash-code ("*). Estendendo questo. concetio anche gli autori od il titolo possono essere considerati descritiori ed in effetti lo SCR. N li tratta come tali. Questo, come si vedrà più avanti, consente una notevole libertà nella domanda dell'utente. Si vuoI far notare infine che i dcscrittori così come sono stati definiti risolvono immediatamente situazioni che sarebbero altrimenti ambigue con le normali Ilrole shiave: per esempio e,istono nell'attuale implementazione i due descrittori "language of philosophy" e "philosophy of language ". Questi pur esprimendo concetti totalmente diversi risulterebbero indistinguibili in un normale sistema a parole chiave. L'associazione testo-descrittore non è autoluatica 111a deve essere fatta da una persona preparata. Si è constatato che questo metodo porta ad· una ll1aggìore precisione nell'identificazione dei testi. L'utente dello SCRlN esprime la propria domanda come una sequenza di descr':tori e/o di nomi di autori collegati fra bro dagli operatori logici AND, OR, AND NOT. Il sistema provvede ad individuare l'insielne di testi associati ad ogni descrittore ed ad effettuare le operazioni richieste fornendo alla fine un insieme di testi che soddisfano alla pomanda. Verranno ora descritti i fil es del sistema, i programmi di aggiornamento e consultazione ed infine le attuali possibilità dello SCnIN e gli sviluppi previsti. . 2.2. Organizzazione dei dati. I dati che (levano essere ritrovati vengono conservati tutti i"1 un file (file BASE), mentre le chiavi di accesso (descrittori, nomi di autori) si trovano in files invertiti. Gli aggarci tra questi fil", (si traha di alcuni files di indirizzi) sonG totalnoente inaccessibili e tracparenti per l'utent.e. I records del Jìle BASE sono di lum>:hezza variabIle al fine di ottenere il m~ssirno sfruttamento dello spazio disponibile. Ogni :record è diviso in più canlpi (numero di ll1agazzino, autore, titolo, sottotitolo ... ) ognuno dei quali è pure di lunghezza variabile ed indirizzabile separatam"nte tramite opportuni puntatori. Alcuni di questi campi sono obbligatori (*>,,) Nel caso di un archivio di cartelle cliniche p. es. alcuni descrittori potrebbero essere la I11rtlattìa, gli interventi, le mediciric, ecc. 53 SISTEMI fNFQìU...1ATlVl: Doc-4 E SCRIN (cioè sono sempr'" presenti p. es. il titolo del testo) altri (p. es. il sottotitolo, il riassunto) possono anche mancare. Quando un campo manca, per esso non vie.'1e riservato spazio nel recorè. Al ftle BASE è associato un file di indirizzi (PUNTBASE) con records di lunghezza ftssa ognuno dei quali cor tiene il punto di partenza del corrispondente record del ftle BASE. F ~l' la gestione del sistema tutto avviene come se questi due ftles costituissero un solo ftle di tipo sequenziale con indice. Il file dei descrittori C') ha records di lunghezza ftssa, essi contengono il nome del descrittore, il numero di testi associati ed un puntatore ad un file dove si trova l'elenco degli indici ai te<ti associati. All'interno del file i descrittori vengono mantenuti ordinati alfabeticamente in quanto la ricerca viene effettuata con un metodo dicotomico. L'accesso ai dati del file BASE avviene dunque secondo il seguente sche.na: , I i--- -../~ ,~ --1 t'\~ I CE .Se li l PUIJTCfI-C " I r--'l , I '-.,. l'UNI BA5,~ \ ~ Fig. 1. C~) Si parlerà gen(;riCamenk dei descrittori, però tutte le considerazioni restano valide anche per gli autori. Nel sistema attualmente implementato il file degli autori è separato da quello (lei descrittori propri~.mente detti. Sarebbe possibile però riunire i due flles oppure aggiungerne altri per avere altri tipi di ricerca (esempio per titolo). 54 1d. AGOSTI - lì'L E. CRESCENTI - F. l.ESTUZZI - P. SCHIAVON Cioè trovato un descrittore il sisten1a ricava 1'insien1c degli jndici associati e da questi tramite il !ile PUNTBASE Uova gli indiriz:'; neHa base dei dati ai testi richiesti. I programmi di gestione: dello SCRIN sono stati studiati in modo da renderne l'uso il pie! semplice Dossibile per l'operatore e per l'utente, ed allo stesso tempo in modo aa proteggere il più possibile la base dei dati da eventuali errori. 2.3. Aggiornamento e consultazione. Il funzionamento dello SCRIN può essere diviso in due fasi: una fase di aggiornamento ed una di consultazione (un programma speciale da utilizzarsi una volta sola, provvede alla generazione iniziale del sistema creando tutti i files necessari, ma vuoti). La fase di aggiornamento a sua volta è divisa in due parti: aggiorn'mento del file BASE agiornamento del file descrittori. L'operatore incaricato eli queste operazioni deve limitarsi a preparare i nuovi d8tÌ in ingresso (nuovi testi da aggiungere) ed a richian1are nell'ordine i due programmi. Il primo programma esamina i dati nuovi, verifica che questi rispettino una struttura formale predefinita (nel nostro caso una p"rticolare scheda bibliografica), li aggiunge al file BASE e crea gli agganci necessari all'interno del file PUNTBASE. Il secondo programma accede dirè;ttamente alla base dei dati, esamina i nuovi te,'i introdotti e provvede ad aggiornare il ftIe ùESCRITTORI ad il file degli indici associati. L/esecuzione di questi pro~'Tamlni è totalmente automaLica e non richieèe a:::uD intervento Ja parte dell'operatore. Eventuali errori V(',1~ gono segnalati con opportuni lllessaggi, e non comportano mai la perdita dei dati preesistenti aH 'operazione di aggiorncn1cnto. È stato D1esso a punto un progrmnn1« spec:'ale per effettuare lo spoglio delle riviste; per evitare eli dover ripetere, per ogni articolo, un certo numero di informazi mi costanti (titolo della rivista, coli )cazione, luogo di pubblicazione, ecc.), questi dati vengono conservati su un file a parte. Facendo lo spoglio di una rivista è sufficiente dare il nUll1ero di codice della rivista stessa, ~,L n;.l~nero e la dD-ta cii pubblica~ zione e i dati essenziali di ogni articolo (autore, titolo, descrittori e riassunto). Il sistema provvede a completare gllesti dati con le informazioni SlSTEi:\H l:-<FOR:\,tATIVl: noc-4 E SCRIN 55 fisse e prepara :,'n Elc che viene passato al Dannale prograrlÌfna di agg!oH'arneni"f). La fase di cCJUsu1tazione come SI e già dnto è di tipo colloquiale. La domanda che l'utente pone allo SCRIN si presenta come una sequenza di descrittori collegati oon operatori lo/ici. Non vi sono restrizioni nel numero di descrittori che possono essere specit:cati né sull'ordine (autori e descrittori propriamente detti possono essere n1escolati). Quando non è nota la grafìa corretta di un descrittore questo può essere indicato in forma incompleta (naturalmente la richiesta diventa meno precisa; p. es. la domanda A = porta alla rieerea di tutti i descrittori che cominciano con la lettera A). Lo SCRIN esamina la domanda da sinistra verso destra, individua per ogni descrittore l'insieme di indici associati ed effettua le operazioni logiche fra questi insiemi. Non è stata stabilita alcuil". rrecedenza fra gli op"ratori logici; per modificare l'ordine di esecuzione si possono usare le fcwentesi che possono essere inserite senza limite di numero e di livello. Eventuali errori (es. descrittore non valido) vengono segnalati all'utente che può provvedere a rHormulare la r\omanda. Alla fine lo SCRIN sottopone all'utente un insieme di testi che soè.disfano la richiesta. Questo insieme viene presentato sotto la forma di file sequenziale COn indice: l'utente cioè può esaminare i testi ritrovati sia sequenzialrnente (in forma diretta o inversa) sia casualmerte. (Questo file pon è fisicamente esistente. ma dal punto di vista dell'utente tutto avvier,p come se esso fòsse stato costruito). , Nell'esaminare i testi l'utente può fahi stampare i dati bibliografici essenziali, l'elenco dei descrittori oppure il riassunto. Il sistema inoltre è collegato con un selettore autonlatico di n1icl~ofìches. La s~lezione d"~l fotogranuna corrisponde al lesto desiderato avviene. autolnaticmnente ed è cc.ntrollata dal calcolatore. Questo consente di fornire all'utente un'informazione più completa (testi p'~1. lunghi o àisegni). Il programma di aggiornamento del file BASE può caricare circa 50 parte dell'utente che in nessun caso può alterare la base dei dati o altri files del sistema. 2.4. Prestazioni e limiti. L'attuale implementazione è risultata del tutto soddisfacente Sid dal punto di vista dei tempi dc esecuzione sia per.l'impiego di memoria 56 M. AGOSrr - ?\1. E. cr~ESCE:-':TJ - F. LESTi)ZZI - P. SCHLJ\VON richiesto. Tutti i progranlmì richiedono solo lO K parole CC). Il programma di agior.<am( nto dei file B\SE può c,ric2l'e circa 50 testi al n1ii'uto, mentre l'aggiornamento del file descrittori richiede ten!)i più lunghi che dipendono sia dal numero di dati nuovi sia dallc quantità di dati già presenti (il programma comprende una hse di SORT ed uno. di MERGE). Indicativamente si può dire che i temni sono circa 2-3 volte i tempi necessari per aggiornare il file BASE. Per quanto riguarda la h.se di consultazione i telnpi di risp,)sta vanno da meno di 1 s. pcr domande semplici (un solo descrittore senza operazioni logiche) fino a 20-30 s. per domande complesse con una decina di descrittori ed operazioni log:che ~u insiemi di qualche centinaio di elementi. Nel considerare questi tempi bisogna notare però che tutte le operazioni di I/O sU disco vengono effettuate tramite buflers in memoria che vengono trasferiti fisicamente solo quando questo è necessario (il sistenla conserva una traCcift di tutte le porzioni ,:'5 file già caric:?te ~n memoria). Questi buffers vengono allocati dinamicamente in modo da occupare tutta la 111cnlorìa disponibile. I progran1111Ì risultano quindi tanto più veloci quanto maggi0re c la partizione di memoria che viene loro assegnata (p. es. per la fase di SORT passando da lO a 20 K si ha un guadagno di tempo di circa il 25 %). I limiti dell'attuale implementazione dello SCRIN sono dati essenzialmente dal tipo di disco a disposizione c dalla necessità di limitare l'occupazione di memoria durante lh fase di consultazione. Un disco da 2.5 M bytes può contenere circa 5000 testi, tatti i files invertiti e tutti i programmi necessari. l~ Avendo a disposizione dischi di dimensioni maggiori è possibile arrivare a circa 20000 testi, oltre i quali è necessario modificare leggermente i puntatori per C':msentire l'indirizzame:lto di files pii' grandi. Per limiti nella iase di consultazione la lunghezza glob',le di un singolo testo non può superare i 1200 caratteri mentre una richiesta non può superare i 252 caratteri (resta libero ii numero di descrittori specificato ), Inoltre Don ci possono essere più di 255 testi associati ad ogni e) I progranlmì 5nno tutti scritti in ALGOL ~1l fine di assicurare una buona mantenibilità e traspOl tabilità. Questo ba ponato un maggior impegno di me~ moria. Sì è 5t1rnato che lo SCRIN fosse stato sc:itto in ASSEMBLER potrebbe funzionare in meno di 5 K parole. SISTE:vn JNFORi\,fATIVI: DOC-4 E SCRIN 57 descrittore e non è possibile superare i 511 testi durante le fasi interluedie delle operazioni logiche. Aumentando però di solo l K !'impegno di memoria è possibile raddoppiare tutti questi numeri. 2.5. Considerazioni finali. Lo SCRIN nella sua versbne attuale è già soddisfacente per l'applicazione per la quale è state studiato. Sono allo studio parzialmente in fase di sviluppo alcuni perfezionamenti. Fra i. più Ìluportanti si segnalano i seguenti: 1) ;;:) 3) 4) introduzione di altri operatori logici (OR esclusivo); collegamento con un selettore automatico di microfiches pe~ la visualizzazione di dati non conservabili in disco (già in fase sperimentale); un programma di parametrizzazione per poter descrivere al sistema dati di tipo diverso; passaggio ad un sistema multi-user. 3. - DOC-4 SISTEMA INTERATTIVO DI DOCUMENTAZIONE AUTOMATICA. 3.1. Introduzione. ,, . 11 sistema DOC-4 realizza l'archiviazi'one eil reperimento di infor- mazioni bibliografiche in tempo reale. Nel 01stenm possono e..;sere ,t.ilG: iiJuate tre fasi fondaluentali: 1) 2) 3) fase di installazione del sistema; fase di archiviazione di informazioni bibliografiche; fase di recupero dclle informazioni. Queste tre fasi vengono realizzate da un packagc di tre progrmnnli di tipo colloquia1c; i primi due programmi possono essere utilizzati esclusivamente dai responsabili delle rispettive fasi; il terzo programma, invece, è specificatal11ente orientato 8.ll'utente dì un sistema di docurnentazk:le auto111atica. L'utente che non conosca le modalità di interrogazione, o che desideri avere delle delucidazioni sulle stesse, oltre 58 ,\1. AGOSTI - ;\1. E. Cl~E.sCE\'TJ. - f. LESTUZZI - P. SCJ.fL\VO:'\ ad avere la possibilità di consultare un rnanuale di utilizzo può avere delle delucidazioni dal sis~ema stesso. Infatt: il sisterr.a elenca su richiesta dé:I'utente, quali sono le diverse possibilità di recupero delle informazioni, cioè la possibilità di esegui,-e la ricerca per titolo, per autore, per casa editrice o per parole chiave, ogruna corredata dalle relative modalità per formulare la richiesta. Nella fase di installazione del sistema vengono stabilite le dimensioni dell'archivio delle inforhlazioni in relazione alla biblioteca c( nsiderata. La fase di archiviazione delle informazioni attlla la costruzione dell'archivio delle informazioni, cioè l'insc"imento deUc informazioni relative all'insienle iniziale dci dOCUDlenti considerati, lTIR attraverso questa fase vengono attuati anche' tutti gli inserin1enti relativi al1'aggiorna~ mento dell'archivio in relazione a nuovi dOCU1l1enti che accrescono il patrimonio dOCUlnentario àisponibile inizialmente. Se sono state intro~ dotce delle inrornlazioni errate, in questa fase si }"UÒ procedere cìirel.:La~ mente alla modifica di queste informazioni, sia chc riguardino un documento nella sua completezza o siano relative solo a una sua parte; il sisten1a creerà anton1atican1ente il collegamento con la parte delle infor~ l11azioni corrette sostitutive di quelle precedentclnente introdotte o efTet~ tuerà la cancellazione delle >.;.,. .precedenti informazioni, se conlpleimnente . errate, e archivierà quefIe corrette. L'introdnzione delle informazioni può avvenire indifferentemente da teletype o da scheda; l'introduzione di una grossa massa di inforn1azihni può esserq più agevole facendo eseguire la lettura da scheda, Dlentre l'aggiornarnento di reutine può essere più pratico ed economico eseg'4rlo da teìetype. 3.2. Metodo di classificaz.ione. L'insien1e dei dOLufnenti considerati è quello l'acca! to in cna hiblio~ teca specializzata. Quando si. è affrontato il problema della classificazione di questi docurnenti si sono volute tenere presente due consiùerevoli esigenze degli utenti di una biblioteca; la prlnla è quella della possibilità di utilizzare, come linguaggio di ricerca auton1atica, un linguaggio il più vicino possibile al linguaggio naturale, la seconda è che la risposta sia mediata da un s1stel118. di classificazione dì tipo tradizionale in n1aniera tale che i dOCUlnenti ritrovati possano anche essere ripartiti, come avviene usualmentl, fra classi diverse. Il Sisten1a DOC-4 realizza questi scopi utilizzando due diversi metodi di classificazione dei documenti collegandoli poi fra di loro con1e verrà esposto in seguito. 59 SISTEIv11 TNFOR\lA'L'.V"i: DocA E SCRfN Il primo è il metodo dell'individuazione coordinata del. contenuto di ogn~ JocUlnento roediar.te una lista di parole chiave associate al documento stesso. La scelta delle parole chiave dal documento deve essere fatta in maniera tale che ogni parola chiave individui un argomento fondamentale trattato nel documento stesso. Inoltre argon1cnti anaioghi trattati in documenti diversi devono essere sintetiz~ zati mediante la stessa parola chiave; in questo modo il linguaggio di rlcerca è costituito da paraI ~ della lingua naturale, ma la ricerca risulta sen1pliflcata con l'elinlinazione della sinonimia tra le parole chiave [1 - 2 - 3]. Le relazioni che intercorrono fra una parola chiave e il contenuto sCl11aniico da essa sintetizzato pCjssono essere formalizzate con1e di seguito. Si chiami I = {i" 1" "', i e } l'insieme di tutte le informazioni elementari e K = {1<" k" "', k"} l'universo delle parole chiave k. Date il dominio K e il codominio !J?(I) , insieme delle parti di I, si suppone l'esisienza di una funzione ~niettiva f: s!'>man~ico fondamentale f: K -+ ,%,(1) f: k-+f(k,). Chiamiamo e, = f( k,), ..., eH = f(1<,,) , l'insieme E = {e" e" "', en} è !'insien1e universo degli argOlnenti; la gen~rica lei svolge, quindi, la funzione di designazione dell'argomento e,. Si suppoùe inoltre che la funzione f sia tale che: n se i ~ r c U Ci = 1. Ì=l Notiamo che supporre ìa il ,.t1zic,J1C f con le suddette proprietà, è come dire che gli argon1enti el, ... , Cn sono una partizione dell'insielne I. Il supporre l'esistenza della funzione f è corretto, perché alnle.no una funzione f, che si può indicare con f, esiste ed è qu'ella che manda una parola chiave in un argornento ei, costituito da una sola informazione elcrr.2ntare, cioè: dove e la numeros·:ti:t n = e. La funzione f è quella che detennina la parti~ z;one più fme dell'insieme I: sarà da ricercarsi, invece, una funzione f 60 Al, AGOSTI - 1\1. E. CIWSCE;-.,:n ~ F. LESTUZZI H P. SCHIAVON che determina una partizione lneno fine del1'insien1e I così che sarà necessario un numero inferiore di parole chiave per designare gli argomenti. J Si è adottato un sistema di ponderazione per spiegare quanto il contenuto selnantico di una parnla chiave viene esaurito in ogni docu~ mento al quale essa viene associata. Quindi nella fase di input delle informazioni bibliografiche per ogni documento si introducono, oltre alle informazioni usuali (ti''llo, a'ltore, casa editrice, anpo di pubblicazione), le parole chiave ad esso associate, ciascuna con un suo peso assoluto; il sistema automaticamente assurnerà nulla rz.ssocìazione con tutte le altre parole chiave. I dati, relativi al sistema di ponderazione, costituiscono una matrice P = Il Pik Il di ordine mXn, nella quale ad ogni riga corrisponde un documento e ad ogni colonna una parola chiave; il generico elemento pjk è il peso relativo associato alla k-esima parola chiave associata al jNesimo documento Inf8tti chiamato "ik il peso assoluto che viene intrvdotto m in fase di input Pjk = "jk / L m "jk j=l e L Pjk = 1, quindi la matrice P è· i::=l normalizzata per colonna. Il numero dei documenti, m, non è fissato a priori, se fosse fissato non si potrebbe tenere conto dell'aumento del fondo documentario della biblioteca; così pl:!fe il numero n delle parole chiave non è fissato a priori, questo per permettere !'introduzione di nuove parole chiave, via via dle entrino nel lessico o che siano necessarie per individuare il contenuto di nuovi docurnenti e~). Il secondo n . . dodo di classificazione adottato viene denominato in letteratura [2] sistema di classifica;done ad argomenti principali con codici associati. Poiché l'utilizzazionel sperimentale del sistema DOC-4 si è effettuata c1assiBcancio dOCluuenti che inreriscono all'informa"fica, si è deciso di utilizzare il sistema di classificazione acloi"tato dall'ACIvI, la cui dtima stesura è del maggio 1976 [4]. Una caratteristica di questo tipo di sist.en1a è qucLa di suddivi~ dere gli argomenti in albcri di piccole dimensioni completamente distinti l'uno dall'altro; i termini d'indagine si fanno corrispondere agli argomenti che non hanno ulteriori suddivisioni (argo:1enti atonlici C0111e per la classificazione per parole chiave), che suno le foglie di cluesti piccoli alberi; quindi un libro può essere attribuito esclusivamente alle foglie O (*) L'unica limitazione riguarda il val.ore massimo di m e di n ed essa è dovuta al quantitativo di memoria dì massa disponibile. 61 SlSTE!'.H INFORMATIVI: DOtA E SC1U:'X sottocIassi di cla-ssificazione. Ciò è C0111e dire che gli argolne:.1Li che corrispondono alle foglie o sottoclassi sono disgiunti fra di loro e l'unione di tutIi gli argolTlcnti costituisce un :icc)rimento dell'ins1.eme I = {i" i" "', i,} delle informazioni elementari inferenti alla scienza cui si riferiscono i documenti della b'blioteca in esame, Chiamato S = {s" ,.., sd l'universo delle sottoclassi, la generica sottoclasse Sj designa:.'~'.rgomento ej sottoinsien1e di r. Chialnian10 E::::: {e'l} e'l, "'} e'I} l'insieme universo degli argomenti, Considerando S come dominio e E' come codominio, esiste una funzione biettiva g tale che: g:S->E' L'util'zzazione di una classiEca;ione di questo tipo porterebbe a collocare ogni documento in un'ullica sJttoclasse, cosi facendo, però, si verrebbe a preferenziare l'argomento trattato in maniera preponderante nel documento e quindi a perdere le informazioni riguardanti gli altri argomenti trattati nel documento, Per conservare la caratteristica. della interdisciplinarità di trattazione degli argomenti all'interno dei' documenti si è data la possibilità dell'associazione di un documento a più sottoclassi, Anche questa associazione viene quantificata mediante un sistema di ponderazione che spieghi \ quanto il documento è legato 2d ogni sottodasse alla quale viene associato. Questi v3.~ori veng"ono organizzati nella n1atrice R::::: l,II' riì" :.",' d'or..... I, dine l X m; dove l è il numero delle Sbttoclassi c m il numero dei documenti, come sopra, Chiamato PIi il peso assoluto che viene introdotto in fase di input, fra le infJrmazioni riguardanti il j-esimo docu:::1cnt'C/, il {.:;enerico elemento ri) della matrice R {; il valore relativo, che rispecchia il legame fra il documento j-esimo con la sottoclasse i-esima, che vi~nc calcolato rij = l pij / 2: Pjj, i=l l L i=l [ij = 1, e quindi anche la n1atrice R ha la particolarità di essere norrnalizzata per colonna. Le informazioni raccolte con i due sistemi di cìassificazionc esposti vengono riunite nella matrice C = ii Clk il di ordine lXn prodotto della matrice R per la matrice P, Con passaggi elementari si dimostra che l anche la matrice C è normalizzata per colonna (z: Cik= 1), cioè dà la Ì:::::l distribuzione delle informazioni individuate dalle parole chiave rispetto ane sottoclassi. Il generico elemento Cik della matrice C, che è una ma- 62 AI. ,'1GOSTI - ;VL E, CHESCEN1'J - F. LESTUZZ[ " P. SCHIAVON trìce di classificazione, indica quantiIativan:ente il legmne che intercorre fra la sottodasse i~esima e la parola chiave _k~esin1a. Per lin1itare notevolmente l'occupazione di merlloria di maSS2 si è el.aborate li!} fil('N todo che permette di aggiùrnare la matrice di classiflCazione e (quando vengono introdotte le inforn1azioni relative ad un nuovo documento o quando i valori della e devono essere modificati perché sono state introdotte delle informazioni errate), senza dover memorizzare interan1ente b luatrice P = lipij l!. Si è d.lmostrato che è sufficiente la n1emorizzazione del vettore mv;:;:; Il m Vk . i: m eli ordine n, dove ill Vk = 1: TCjk ' j~l Se si indica con C':;::; 11 C'jk li la luatrice che si deve ottenere dalla = li Ci"!! dopo la introduzione delle informazioni relative al (m + 1)-esimo documento, si dimostra ehe il generico valore c'" è uguale al valore calcolato mediante la formula seguente: e m C'ik = Vk Cjk • - - - - - - tn Vk + 1':01+1; k + Se si indica con e" = l! c"'" !I la matrice che si deve ottenere dalla C tenendo conto den'estrazione dal sistema di informazioni errate introdotte in relazione al dOCUlnento r~esin1o (qualsiasi), il generico valore C"ik si dimo'stra che è uguale al valore calcolato con la formu~a seguente: \ C"ik = , Cik . nlVk - - - - - - . fir. n:rk~ 3.3. Il linguaggio di ricerca. La descrizione del linguaggio per la Ticerca per paro:,: chiave, utilìz zando la forn1u norn1ale di Backus) è la seguente: < don1anda>: : ::::;: <frase>! <frase> < continuu?ioni> <continuazioni>:: = <continuazione> I<continuazione> < continuazkni> <continuazioni>:: = <operatore> <frase> <frase>: : = <operando>!( <frase»1 <frase> <operatore> <frase> <operando>:: = <lettera> I<lettera> <oper"ndo> M SlSTE\!l 10:.FOR\lXflVl: noc-4 E SOUX 63 (1) <operatore>:: = <spazio> O <spazio> I <spazio> E <spazio>! <spazio> NON <spazio> <spazio>::=b Una caratteristica del linguaggio che non può apparire dalla (1) riguarda l'operando. < operando> è una qualsiasi parola di senso compiuto appartenente ad una delle seguenti quattro lingue: italiano, inglese, francese o tedesco; la parola chiave è formata con le ventisei lettere dell'alfabeto inglese, quando è una parola composta come spaziatore viene usato il trattino, se si dev", accentare viene utilizzato l'apice. L)utente può decidere di efretl;''-lCtre ] J. sua ricerca utilizL1ndo parole appartenenti a una sola di qu.este quattro lingue, in questo caso specificherà al sistelna la lingua nella quale vuole effettuare la ricerca; oppure specificherà al sistema l'intenzione di utilizzare nella stessa stringa di ricerca parole appartenenti alle diverse lingue. Nel caso della ricerca multilinguc, il sisten18 è in grado di segnalare, se esistono fra le parole chiave, on10ninli on}ografì ma in lingue diverse (il sistema in input di informazioni non li ascetta nella stessa llngua); in questa eventualità il sisterna farà una specifica domanda all'utente per sapere in quale ling a deve considerare quella parola chiave. La frase di richiesta dell'utcl1le consiste, éomc risulta (Iallo (I), in una espressione formata da una successione di parole chiave legate fra loro da operatori logici. Si è preferito adottare la scrittura usuale degli operatori logici, per Eon introdurre un simbolislTIO che poteva f~ssere ostico all'utente. La stringa ViC110 rbolta da sinistra "ersa destra. È possibile modificare la sequenza cbe risolve l'espressione utilizzando le parentesi. L'utente, se non è soddisfatto della risposta avut8 dal sistema alla sua prim? richiesta, può o riformularc la domanda con <frase>, oppure aggiungere una <continuazione> per modificare la risposta ottenuta; questa possibilità può èssere utilizzata dall'utente in D1aniera iterativa, come risulta dalle (1). Aiia domanda dell'utente il sistema dà una prima risposta segnalando quali sottoclassi, in base al secondo ~ipo di classificazione utilizzato, sono state selezicnate; ogni sottoclasse Ss è corredata di un peso 64 i\1. AGOSTi -,\1. E. CRESCE:\:TI - F. uoSrVZZI - f'. SCI-IlA VO" che rispecchia l'attinenza di ogni sottoclasse seìezionata con la richiesta dell'uteme; quindi la risposta del sistema sarà del tipo: \V s k Con L w, = 100. li""l La seconda risposta del sistema è l'elencazione elei dati essenziali relativi ai documenti selezionati in base alla richiesta dell'utente. Ogni documento D, è corre1ato (la un coefficiente C!." chiamato coefficiente di attinenza, che spiega l'attinenza del elocu.nento con la richiesta dell'utente, inf",tti il coefIiciente Cl, viene calcolato in base alla formula: k ti D t • (f.l = k ,,:::01 W5 ' rst , O:s:: (.( :s:: 100. 3.4. Struttura del sistema. L'organizzazione del sistema è stata progettata considerando specifìcatalnente le esigenze dell'utente, co:mc. è già stato detto, e la possibilità di assicurare qualsiasi tipo di n10dificà delle informazioni archiviate. I file del sistema che vengono utilizzati più frequentemente durante le richieste dcii 'utente sono i file AUTORI, TITOLI, CASAED e KEYWORD, che si sono quindJ costruiti C0111e file randorn, indirizzabili n1ediante la tecnica hash. La funzione hash utilir.:zata è quella della divisione [5]; C0111e legge di scansione è stata sceltà~ la legge di scansione quadratica a coefficienti pesati [6] in quanto si riesce a elin1inare il fellolncno del~ l'agglomerazione prinlaria c anche quello dell'agglorn~razione seconda~ l'ia. Gli altri file del sisten18 30no di suppc.~to ai f:.le preude:~.temente elencati e Jnediante ùn sish.~n1a di punta tori vengono irldir~zzati dirt.:~ta mente, i principali eli questi sono il file MATCLAS, che conticne le inFo1'n1a",joni della lnatrice di classificazione, il f1ìe se rLIB che contiene le informazioni relaiive 21 sistema di ponderazione utilizz8to per quanti.fi~ care le info1'n141z10ni re1ati'.'e all'allribuzione dci docunlCnti nc1ic soHodassi della classificazione adottata; l'occupazione su ,memoria di .. :lussa relativa a questi due file viene estre111anlente contenuta 111caiante particolari tecniche di compattazione. Altri file, come il file ORDER e il file CLASS, permettono una starnpa più -..'c10(:0 delle liste alfabetizzate delle parole chiave e degli altri cataloghi di c~li dispone la biblioteca. SIsTEi\lI lXFORMATIVI: bocA E SCRIN 65 Tutte le. informazioni contenute nd file sono state organiz."ate in lnaniera tale da ~vitare ogni ridondanza. Ne~ file lvIINIFIL vengono archiviati sistema+icamente da ~ sistema i dati reiativi al processo di archiviazione delle informazioni (ad es. il numero dei documenti, in relazione ai quali sono state introdotte le informazioni, il numero di parole chiave, il numero di case editrici diver:·, fra loro, etc.) e i dati relativi alle scansioni che si sono effettuate nei file random, per permettere delle valutazioni statistiche in relazione aìIa lunghezza di ricerca in questi file ai responsabili del mantenimento del sistema. I! sistema è stato implementato nel linguaggio FORTRAN IV; l'occupazione del sistema su disco è di quasi 80 K bytes; l'occupazione massima di memoria è di 38 K bytes facilmente riducibili a 26 K bytes. Utilizzando un unico disco da 2,5 M Bytes come supporto per l'archivio delle informazioni e per il sistema, si possono archiviare informazioni relative a più di 7000 documenti bibliografici. 3.5. Conclusioni. Si sono considerati i possibili sviluppi futu.-i del sistema DOC-4. Si sono considerate, in particolare, le possibilità di modificare la fase di bstallazione del sistema, in maniera tale chc, oltre ad avere la possibiìità attuale di stabilire inizialmente le dimensioni dell'archivio delle inforn1azionC si possa rendere il siste\ma in grado dI gestire dati di tipo àiverso e la rossibilità di rendere il sistelna n1ulti-user. Si consickrerà la possibilità dell'aPl'ìlicazione di metodi di cluster é, nalysis per la realizzazione di una classificazione automatica delle parole chiave. 3.6. Ringraziamenti. Gli 2'1tori desiderano ringraziare il Dr. Livio Coluss; per le utili discussioni. sulla definizione del metodo di classificazione. 4. - CONCLUSIONE. Qui di seg;..lito sì riportano due esempi ài interrogazione ai due n:d presentati. siste~ 66 ]\f. AGOSTI - 2\1. E. Cl~ESCENn ~ F. LES-rUZZI ~ P. SCH lAVOi\! 4.1. Colloquio COn lo SCRIN. L'utente sta cercando t~stì scdtti da PIERCE, che tratthlo di Grmn~ malica trasformazionale, oppure sulla Teoria di Chomsky (fig. 2). Sì nota la dOlnanda posta dctll'utente ed una serie di rnessaggi sta111pati dal sistema (questi sono immediatamente riconoscibili perché iniziano COn "**). Lo SCRIN ha trovato nella base dei d"ti 43 testi che trattano la Teoria di Chomsky, 39 testi sulla Grammatica trasformazionale e 3 testi scritti da P1ERCE (si osservi che le iniziali del nome non erano state indicate nella domanda). Alla fine di tutte le operazioni logiche rimane un solo testo. Le informazioni archiviate vengono stampate su richiesta (i:~h':QD.E_ RY? ALL). Si può notare che il testo contiene entrambi i descrittori richiesti; lo SCUN ba tenuto conto di questo fatto quindi il testo è stato contato una sola volta. 4.2. Colloquio col DOC-4. L'esempio, qui sotto riportato, è relativo a tre diversi tip; di ricerca di infonnazionc che l'utente può\effettuare al sisterna DOC-4; DOi\!lANDA (rutenie può jnté::"togarc il sisterna mediante una frase); AUTORE (l'uten~ te richiede i documenti scritti da un dCl:erminato autore); CASA EDITRICE (l'utente richiede la lista dei Bocumenti editi da una determinata casa editrice). I D1essaggi stan1p8ti dal sisten1U sono preceduti dn « = = >". :-Jell~l prin1a ricci.ca (fig. 3a) l'utente desidccD. indiviuuart- i 6:)culT'enti legati aHe paTole chiave Data-scìences oppure Data-structtU,--~s (si noti cb.e la parola chiave Data-scicnces si è utilizzata neUa ch:tssifìcazione dei docun1enti introdotti, col significato che si raccon1ane:L in [4]). Il sisten18 ha sclezionaLO le tre sottoc1z.ssi uata-structurcs con attinenza 42, Generale di InfolT1atìon Retrìeval con attinenza 34, Data-Base con attinenza Il; la sornrrta dei tre pesi non raggiUtlge il 100~ questo significa che il sisterna ha selezionato altre sottodassi che non vengono stan1pate per la loro scarsa signiflcati"'ità. Ora il slstenla chiede all'utente se è interessato 2d avere le informazioni relative ai documenti selezionati; alla risposta afferrnativa fornisce'il nun1cro totale di dOCUD'lenti 67 selezionati e inizia a listare le:: i11formazioni. Ogni documento è co..: redato dal codIìdentc di atlinenza alla don1anda (si noti che il sisten1a li fornisce ordinati rispetto a questo coefficiente); la 'tampa viene fatta di cinque in cinque docun1cnti. Al termine dcll'esanle dei dOCUDlentl il Ststen1a chiede se si è interes~ sali alla fOrlT1Ulazione di una dornanda continuzione (fig. 3b); alla risposta afIen'j,ttiva 11 sisten1a scrive: "= = > CONTINUAZIONE". L'utente, ora, vuole escludere le informazioni individuate dalla parola chiave Data·base (quindi scrive NON DATA·BASE). Come si può vedere nelle due risposte del sisterna, di conseguenza, vengono lTlodificati i valori di attinenza e la sottoelasse Data·base noe viene più selezionata. (Si noti che l'ultimo dOCtllnento con1pare Glnche in questa lista perchè è associato alla parola chiave «data~structures»). Infine si danno due esen1pì di ricerca non per parole chiav(' (fig. 3c). La prima è una ricerca per autore, si desidera l'elenco dei dOCU111enti che hanno p','r autore Knuth D. E. e il sistema ne effettua l'elencazione; la seconda è una ricerca per casa editrke, la Prenticè-Hall, ~ il sistema effettua l'elencazione dei documenti editi dalla casa editrice data. 68 Go 'H> AL AGOSTI - .l\{. E. CHESCEi\TI • F. LESTUZZr - P. SCHIAVON REA[IY Pl ERCE • .", • FINO [ TRFlNSFORMAT I OiiRL GRRMMAR • OR CHOM'SKY (THEORY) J O~Q ~~~ vH HO> 1>U }ERRCH FO~ ~PIERCE, FOUND: PIERCe,J.E. 3 TEXT'i; 7'QUN(IS 5.EAF'CH FaR ~TR.ANS'FORMRnONRL GR:iM~lHR cQur-i[l: TRANSFORt1ATImlAL GRRMr1flR ."'$o 33 TEXTS FOUNOS +(>Q SERRCH FOR "(HOM$KY<TH!?ORY) "H FQllN[I: CHO' 'SKynHEORY) 43 TEXTS FOUNDS ••• ONE TEXT FOUND ~~. LIST o~ TEXT FOUND$ 1 (YES/NO) YES • • 0- TEXT l DF 1 *(>00 (lO(l(l(EE03~~ ><0010145 E"d:: PIE:RCE. J.E. F Hl IT I 'vE \1$ II'lF INITE STATE GRRMMARS • • \1' QUERY ALL (J(tCt(lllf;:03520 :>«(101014'5 E,E PIERCE.J.E. FIN1!"fVE V$ HiFHiITE STArE GRR!'lMAR$ IN: L INGi..lr STIOS THE f-lFlGlIEO 1971 "s':" .072-074 ; TRA:'i $FQRMAT I DNA L GRA!'l!'lAR, GENERRT I Vs GRAMMFtR s CHOM$KY <THEORY~ 1F I N I TE STATE GRF1I'H1FlP1 SENTEI'lCE, DESCR IPT! VE ADEQUFlctt' Fig. 2. SlSTE)."Lt I::\l'OR!I..IATXVI: DOC-4 TI SCRIN: ==) ~A SOTTOCLASSE= DATA s:~ STATA 'SElEZIO!'lFlTti Cml Uri 69 STRiJCTIJRE~ VALO;:;;E 'iTTII'jnCA= 42 IiI :.=> LA SOìTOCUiS'S~:::;; 6-INFOR~iHT1ml RETRIEVAL E" ST.eHF! SELEZIONATA C·O!'i lJN '.)ALGRE DI ATTHlEN2F1= 34 ==) LA SOTTOCLASSE= DATA BASE E~ STATA 'SELEZIONATA CON UN VALORE DI ATTII'iEK2A'" 11 =='> VOLETE LA STAl'lPA, DELLE HJFORMAzrOri! III::! DOCUMENTI SElEZIOI"IATI?,(SI O l'IO> ? SI ==} SQi'iD SiRT1 SELEZIQNRTI ==} LISTA !lEI 17 I 10CUI'lENTI DOCUMENTI SELEZIONATI : CO.:;:':-PICrEl'lTE Di ATTINENZA RLF'H.';= 42 I l'iFO.ç;,..rAZ r 0,'1 r i\'ELAT I VE 8l DOC:UI'lErnO: cn:_L~CF\Zrn";E: H12.3 tiUl'lQ T)l STAM:::'A: 1968 TI;: TH:; ~r.::T OF COr1PUTER PPOGRRI~M:N''; - VO'_.l >::='} "VT: KNUH.;, D.E. CASA ED.: ADDISON-WESLEY ="'r CCEF"FICIENTE Di ATTUiEl'IZA AL?HA= 34 ì,"lFf)RMAZIONI PELATI VE AL DOCl)v,aiTo: o: CLLDCFlZ i Ot'lE: U3 ,~j'j~iO DI :$ TAMPA: 1'9 ('3 Tr T: I NPQRMFlT I D.''i-RETR I EVAL AUT': DOur:rlIkoFP.B. CASi:, EII.: A1.lERBACH ==;:.' (GEFFT('IENTE DI F-lTTI.'iHJZA FilPHfi= 34 PELATI VE AL DOCIJNErno: LI? Al'itiD III STAMPA: 1973 rNi="G~r-;AZIOr-i! I:OLLGCRZID:--lE: TI T: IN~JRMATION SYSTEMS AUT: vlCkERY,B C. CASA ED.: ~=> BljT l~ r:;:RI,IORTHS CO~FFICrENTE DI ATTINENZA 1M;:: O~:"r",iiL I G:'i! RéLFlTI VE AL DOCIJMEl'iTO: COLLCCAZIO~E: TI1: DiirA /1):: Tl0 81 ANNO DI STAMFRi 1975 STRUCTURES ;::;:~Zr:'SSlr:. CHSf1 ED.: ALPHA= r. HCAD~MrC ==:> COEFFICIE?--:TE DI FiTTli'iEI'JZA FtLPHFi= 31 I!''=ORl'lAZ IGI'l I RELR'j 1 VE Al DOCVVIEtHO ~ COLLOcriZrr'{E: U15 AhNO L! STAMPR: 1975 TrT: rHHA f,ASE DE:SCRIPTION RuT: RA. '·IV. CASi'1 Er:.: l'IORTH-HOl.LRND =~> VOLETE CHE LR STRMPA DELLE rNFORM8ZION! CONTINUl?<SI O NO) ? i'lO Fig.3a. M. AGOSTI ... 2\!. E. CRfSCEXTI • F. LEST(JZZI . . P, SCHIAVON 70 ='="> V[iLETE: F"ORRE UrlA DOf'll'1I'JD8 COf-nINUFlZIONE? (SI O ~ :1 ' .",='> CQriTJ.IJIJAZlOilE ==) ~ ~jQ) NE'Hl DRTF:-:E:A;;E LA ZDTTDClAS!E= G-IrIFDRMRTrDN RETRIEVAL E" nATA 'SELEzrm~ATA emi uri vALORE DI ATTHjEl'lZfr· 43 "' .. > LA ::OTTOCLA$?E"" DATt=< STRUCTURE.S E" :TFHR 'SELEzrmIATFI CON UN V,ilO!':E DI ATTIi'{EN2P.= 41 ==';. vOLE:TE LFl STArlPFI llELLE r l'i: DPi':AZ I Di'l I DE I TiOCUl'lENT I SELEZ I ONAr!? <:$ - a NO) ? 5::1 ==> SONO STATI SELEZIONATI ==) LI~TA DEI 16 DOCUMENTI I:OCUl>;ENTJ SELEZrmlAT! : ==,) COEFFICrEllTE DI ATTINEi'iZA H!..PHA= 4:3 JNFC:".\'MA?!Oi'n f"'ELFlTII/E fil DGCUl'lENTO: cou.. CCF+ZfG;'iS: Tli: 1J? tiriNO DI -STRl'lPA: 1973 INFDRMATIGN SYSTEMS çlL)T: VICKERY.B..C. C'15A ED.: BIJTTEKl;'.ORTWS ==) CO;::FFiL:IHfTE DI ATTUiEiiZli H!-PHA= 43 IN;::CRl":(~zrONI COI_LCCF;ZIGi'r2:~ U? RELATIVE AL DOCU11EìrTO: P.ril"{Q DI STRI';PA: 19r3 HT: 1i'l·cGI?I';FlTIDN-RETRIEVF\L AUT: DCUDNjKOFF~B. CFl$A ED.:. A:JERBACH ==> C8:::FFICIE1"HE DI AT""'HIEriZA FlLPHA= 41 T1'i'::O).(~~;:;Z I O,'i I RELAT l VE AL tIOCUi1EìiTO: r.iJLLOCHZIO;~;E: H12'3 AtlìlO DI 'S.TAMPA~ lSt68 TIT: THS ART OF COMPUTER PROGRAI'1l1ING - VOL.l AUT: kNUT~.D.E. CA:S'; Er'.: 8j)[II$Orl-1oIESLEY ==) çD~FFIC rEìr;'E IN:::GR~'lHZImJI COLLOChZIONE: UiD \ DI FtTTIIiENZA FiLPHR= 131 RELATIVE AL DOClJrtENì'iJ: :HN~O DI STR~PR: 1968 TIT: INFGi;;:r-::=JTIml RETRIEVAL S'l'SHi:l'";$ A:.IT: U"NCRsn::R,F.I;,l. (ASA ED.: WiLE\' ==> C:,~::':F.clC~EN,E DI RTTHiENZii 8LPl-"IH= 30 . U'i;;CF:MiiZIONI RElATlVE FlL DOClj,~1ENrO: CCl..LOCHZIONE: 1J1'5 Ati NO DI Sl'AI1?A: 1975 "TIT: DATA BR SE DESCR1PTION SlJT: >;H. \iV. Cii SA ED.: NORTH-HOLLFiND .=",,) VOLETE CHE LA STM1PR DELLE rW:'"ORt"lA2IGI'JI CONTIl'iUI?<sr D NO) ? ;';0 ==) VOLETE PORRE UNA Dar'IRNDA CDNTIf'{UFì2IONE? <sr ,D NO> ?f'iO Fig, 3 b. SISTEi\lI I:-\FQlù1ATlVI: Doc-4 TI SCIH>':: ::::=) CI SONO ==> T I PO DI R! CERCA : I~LH:E ==) AUTORE: CQLLOCAZrCHH::: RrCHIESTE?(SI O ~m) AUTORE KNUTH,D.E. R!5'3 AHl'lQ DI STRPlF'A: 1974 '$n~U(:TU';:ED PROl3RAi'ti'IIf'iG !JITH Goro STFlTEMENTS ;;I).T: kNUTH. I). E. CFISA EI).: SrANf=ORD Uf'j. COLLOCRZIONE: H12~: FINilO DI $TRft,PR: 1968 TIT: THS" Hl\! OF CDr'l?UTER PROf;:~Ar1MING - VOL~ l AUT: KN!,IT)-'~,;).E. l:~,T: CR:')'; ED.: riDIIISCi'{-WESlEV COLLOCF.ZICNE: TIT: THE 8 1)T: M~T ANl'lO DI S':AÌ'iPF!: H123 DF ~OMPUTER 197: PROGRRMMING - vnLo3 !<i1 I.lTH.D.E. CASA ED.: ADDIsorj-WESLEV ::::=) CI SONO ALTPE RICHIESTE?<SI o NO> ? SI =::::) rrF'O DI RICERCA: Cfi'SAEDITRICE ==> CRSR EDiTRICE: PRENrrCE-HALL COi..LC(:Fl2IOn:S: v;-; H~ir;O DI STA~lPR: 1975 T r T: [lYNFi"l I C I (-iFDRt'iAr l O~{ FiND L r BRARY PROCESSI N.G R~IT: ~8LTDN.G. \ CASS ED.: PRErITJCE-HALL COl..LOCAzrCN;;::: U4 8Nrm Dr S':TFH1PA: 1971 TI,: TH~ ::"':MRT f.'ETR!EVr'!L SY'S:TEM FiUT: $'::' l. TCN. i:;. l~ CASA EG.: PRENTICE-HALL CGLLOCFi2IG:'iE: U13 ArirtO Dr STRl'iPA: 1975' TIi: COKPUTER DRTA-BASE ORGANIZATION AUT: l'jRRrrl'19~!. CASA ED.: PR[NTIC:-HALL ==) CI SONO RLTRE RICnESìE?(SI O NO) l' NO STOP R Fig. 3 c. 71 72 11. AGOSTI M M. E. CR.ESCENTI M F. LESTUZZ! M P. SCHIAVON B l B L l O GR;\ F lA [1] MICHAJl.OV A. L, CERNYJ A. L, GILJAI{EVSKIJ R. S. M Principi di informatica. EdiM tori Riuniti, Roma, 1973. Elemerdi di organizzazione delle il1.formazioni. Franco Angeli Editore, Milano, 1972. (3] LANCASTER F. W. - Inforlnation Retrieva! Systems. Iohn Wiley, 1968. [4] Categories oi the Computi,'g Sciences, Revised Classificatiol1. Systr;m ;01' Com· puti/ig Reviews, CR of ACM voI. 17, n. 5, maggio 1976. [5] MAURER y."r. D. An Improved Hash Code for Scatter Storage. Conuuunicatiol1s of ACM, val. Il, pagg. 35-38, gennaio 1968. [6] BELL J. R. - The Quadratic Quolient ;'.iethod: A Hash Code Elil-ninating S'econdary Clustering. Communications of ACM, val. 13, pagg. 107-109, febbraio 1970. [7] TREUSCH B., LESTUZZI P., ROVA S. - lnformation Storage and retrievaZ. Modello di un sistema integrato. W. P. Fondazio:1c Dalle Molle, Venezia. [8] LESTUZZI F. - SCRIN: Un sistema colloquiale di ritrovamento dell'informazione. Congresso AlCA 1975, Genova. [9] LESTUZZI F. ~ SCRIN: System Reference lv'JI'ì1ual. R•.pporto interno C:::lltro Studi della Barbariga, Stra (VeIcezia). [lO] AGOSTI :1/.1., KING M., LESTtJZZI P., WETTLER - Ulteriori sviluppi dei due sistemi di documentazione automatica SCl?IN e DOC4. Congresso AlCA 1977, Pisa. [2] DA RIVA D., RICCI G. M M