Documentazione
Transcript
Documentazione
Università degli Studi di Padova - Facoltà di Ingegneria Documentazione Francesco Fassina Nicola Fin Andrea Martini Stefano Meneguzzo Fabio Montemaggiore Anno Accademico 2007/08 Indice 1 Introduzione al sistema 2 2 Installazione 3 3 Analisi dei risultati 4 4 Confronto e conclusioni 5 1 1 Introduzione al sistema Copernic Desktop Search 2 è un software che fa parte della categoria desktop searching tool. Si tratta di uno strumento per effettuare ricerche rapide su personal computer locale, all’interno di tutti i file indicizzati. Gratuito per uso domestico non commerciale, il programma si integra perfettamente con sistemi Windows: oltre all’icona nella tray bar viene aggiunta una casella nella barra delle applicazioni del sistema operativo. Da qui si può avviare rapidamente una ricerca selezionando eventualmente anche il contesto in cui essa deve essere effettuata. C’è la possibilità inoltre di aggiungere, al momento dell’installazione e durante l’esecuzione del programma, plug-in per Mozilla Firefox e Microsoft Internet Explorer. E’ possibile effettuare ricerche istantanee basate sul nome del file ma anche e soprattutto sul loro contenuto. Per quanto riguarda i file multimediali la ricerca viene effettuata solo sui metadati degli stessi. Copernic Desktop Search 2 reperisce email, allegati, file Word, Excel, PowerPoint, PDF, file musicali, immagini, filmati, infine effettua ricerche anche all’interno della cronologia del browser (Internet Explorer 5.0 o successive, Mozilla Firefox 1.0 o successive, Mozilla 1.0 o successive, Netscape 6.x, 7.x, 8.x), nonché nei Preferiti e nei Contatti. Il gruppo Promethevs ha scelto Copernic Desktop Search 2 poiché è stato giudicato nel 2005 il migliore strumento di ricerca (desktop based) disponibile secondo uno studio intitolato ‘There’s More to Search than Google and Yahoo! An Evaluation of 12 Leading Desktop Search Tools’ condotto da EBusiness Consortium della University of Wisconsin-Madison, che ha testato soprattutto i seguenti aspetti: usabilità, versatilità, accuratezza, efficienza e sicurezza. Punti di forza del programma riscontrati dal nostro gruppo sono: - l’indicizzazione e l’elevata velocità di reperimento delle informazioni; - la possibilità di avere un’anteprima del documento reperito; - la possibilità di inserire query in linguaggio naturale o strutturato. Punti deboli invece sono: - l’impossibilità di gestire le query in modo automatizzato; - l’impossibilità di esportare i risultati; 2 2 Installazione Copernic Desktop Search 2 è compatibile con i sistemi operativi Windows 98/Me/NT/2000/2000 Server/XP/2003 Server/Vista. E’ richiesta una CPU di almeno 120 MHz, 64 MB di RAM (minimo) per Windows 98/ME, 256 MB (racommandati) per Windows NT/2000/2000 Server/XP/2003 Server/Vista. Sono inoltre necessari 20 MB liberi su Hard Disk per l’installazione e 250 MB (raccomandati) per la creazione degli indici. La dimensione degli indici varia in accordo con il numero ed il tipo di documenti indicizzati. Una volta scaricato l’eseguibile d’installazione dal sito: http://www.copernic.com è bastato avviare la procedura d’installazione guidata e seguirne i semplici passi. Copernic Desktop Search 2 permette di configurare modi e tempi in cui eseguire l’indicizzazione dei file. Una volta installato il programma, come prima cosa è stata effettuata l’indicizzazione dei documenti della collezione in esame. E’ importante dire che è stato scelto di indicizzare solamente la cartella contenente i nostri documenti di test. Se non avessimo operato questa scelta, copernic Desktop Search 2 avrebbe indicizzato anche i seguenti elementi: - la cartella ‘Documenti’ di Windows; la cartella ‘Desktop’ di Windows; la cronologia dei browser; i ‘preferiti’ dei browser; Da notare che, dopo una prima indicizzazione, le successive effettuano semplicemente un aggiornamento incrementale del file di indici precedentemente creato. 3 3 Analisi dei risultati Copernic Desktop Search 2 effettua di default l’’AND’ di ogni parola (AND-filling), ottenendo un numero esiguo di risultati complessivi. Per l’esecuzione della valutazione perciò sono state modificate le query date inserendo un ‘OR’ tra una parola ed un’altra. In base all’analisi sui risultati di ciascuna query, si è ipotizzato che Copernic Desktop Search 2 utilizzi il modello di reperimento booleano. Per quanto riguarda il ‘matching’ delle parole, si è osservato che il programma considera ogni parola data in ricerca come prefisso delle parole trovate: ad esempio, cercando ‘nation’ verranno reperiti tutti i documenti contenenti ‘nation’, ‘nations’, ‘national’ o simili. Dopo l’esecuzione di Trec Eval si sono ottenuti i seguenti risultati per Copernic Desktop Search 2: Map: 0.0074 R-prec: 0.0038 P5: 0.0038 P10: 0.0038 recall5: 0.0017 recall10: 0.0032 Dai risultati ottenuti si evince che Copernic ottiene valori di richiamo, precisione e map molto bassi. Probabilmente questo è dovuto al fatto che il programma ordina i risultati per nome del file e non gestisce una stop list. Per MySQL si sono ottenuti invece i seguenti risultati: Map: 0.3370 R-prec: 0.3610 P5: 0.4038 P10: 0.3173 recall5: 0.2410 recall10: 0.3132 I risultati molto più elevati per tutti i valori rispetto a Copernic Desktop Search 2 sono evidentemente dovuti al fatto che MySQL ordina i risultati per ciò che nella documentazione viene definito relevance value. Inoltre MySQL gestisce una stop list che considera parole di lunghezza inferiore ai quattro caratteri prive di significato semantico. 4 4 Confronto e conclusioni Dai risultati ottenuti si può notare una grande differenza tra i parametri di valutazione di Copernic e MySQL. Per questo motivo abbiamo voluto testare MySQL abilitando la modalità booleana, utilizzando il seguente formato: SELECT * FROM documento WHERE match(testo) AGAINST (query IN BOOLEAN MODE) Si noti che in questo caso i risultati non vengono ordinati per rilevanza ma per chiave primaria (identificativo del documento). In questo modo otteniamo i seguenti risultati con Trec Eval: Map: 0.0181 R-prec: 0.0114 P5: 0.0038 P10: 0.0058 recall5: 0.0017 recall10: 0.0038 Questi risultati non si discostano di molto da quelli di Copernic Desktop Search 2. Infatti P5 e recall5 sono identici, mentre gli altri valori si discostano di poco. I valori di Map e R-prec più alti di MySQL sono evidentemente dovuti all’utilizzo di una stop list, la quale elimina un gran numero di documenti non rilevanti. In conclusione, possiamo affermare che Copernic Desktop Search 2 è un ottimo motore di ricerca se utilizzato con query brevi e specializzate, soprattutto grazie alla sua gestione del file di indice. Per contro, quando vengono utilizzate query più simili al linguaggio naturale notiamo una notevole imprecisione nel reperimento dei documenti, arrivando molto spesso a situazioni in cui più della metà della collezione viene restituita come risultato. 5 Fig.1 Precisione ai livelli di richiamo per CDS2 Fig.2 Precisione ai livelli di richiamo per MySQL 6 Fig.3 Confronto della precisione ai vari livelli di richiamo 7