Documentazione

Transcript

Documentazione
Università degli Studi di Padova - Facoltà di Ingegneria
Documentazione
Francesco Fassina
Nicola Fin
Andrea Martini
Stefano Meneguzzo
Fabio Montemaggiore
Anno Accademico 2007/08
Indice
1 Introduzione al sistema
2
2 Installazione
3
3 Analisi dei risultati
4
4 Confronto e conclusioni
5
1
1
Introduzione al sistema
Copernic Desktop Search 2 è un software che fa parte della categoria desktop
searching tool. Si tratta di uno strumento per effettuare ricerche rapide su
personal computer locale, all’interno di tutti i file indicizzati.
Gratuito per uso domestico non commerciale, il programma si integra perfettamente con sistemi Windows: oltre all’icona nella tray bar viene aggiunta
una casella nella barra delle applicazioni del sistema operativo. Da qui si può
avviare rapidamente una ricerca selezionando eventualmente anche il contesto
in cui essa deve essere effettuata. C’è la possibilità inoltre di aggiungere, al
momento dell’installazione e durante l’esecuzione del programma, plug-in per
Mozilla Firefox e Microsoft Internet Explorer.
E’ possibile effettuare ricerche istantanee basate sul nome del file ma anche e soprattutto sul loro contenuto. Per quanto riguarda i file multimediali
la ricerca viene effettuata solo sui metadati degli stessi. Copernic Desktop
Search 2 reperisce email, allegati, file Word, Excel, PowerPoint, PDF, file
musicali, immagini, filmati, infine effettua ricerche anche all’interno della
cronologia del browser (Internet Explorer 5.0 o successive, Mozilla Firefox
1.0 o successive, Mozilla 1.0 o successive, Netscape 6.x, 7.x, 8.x), nonché nei
Preferiti e nei Contatti.
Il gruppo Promethevs ha scelto Copernic Desktop Search 2 poiché è stato
giudicato nel 2005 il migliore strumento di ricerca (desktop based) disponibile secondo uno studio intitolato ‘There’s More to Search than Google and
Yahoo! An Evaluation of 12 Leading Desktop Search Tools’ condotto da EBusiness Consortium della University of Wisconsin-Madison, che ha testato
soprattutto i seguenti aspetti: usabilità, versatilità, accuratezza, efficienza e
sicurezza.
Punti di forza del programma riscontrati dal nostro gruppo sono:
- l’indicizzazione e l’elevata velocità di reperimento delle informazioni;
- la possibilità di avere un’anteprima del documento reperito;
- la possibilità di inserire query in linguaggio naturale o strutturato.
Punti deboli invece sono:
- l’impossibilità di gestire le query in modo automatizzato;
- l’impossibilità di esportare i risultati;
2
2
Installazione
Copernic Desktop Search 2 è compatibile con i sistemi operativi Windows
98/Me/NT/2000/2000 Server/XP/2003 Server/Vista.
E’ richiesta una CPU di almeno 120 MHz, 64 MB di RAM (minimo) per Windows 98/ME, 256 MB (racommandati) per Windows NT/2000/2000 Server/XP/2003 Server/Vista.
Sono inoltre necessari 20 MB liberi su Hard Disk per l’installazione e 250
MB (raccomandati) per la creazione degli indici. La dimensione degli indici
varia in accordo con il numero ed il tipo di documenti indicizzati.
Una volta scaricato l’eseguibile d’installazione dal sito:
http://www.copernic.com
è bastato avviare la procedura d’installazione guidata e seguirne i semplici
passi. Copernic Desktop Search 2 permette di configurare modi e tempi in
cui eseguire l’indicizzazione dei file.
Una volta installato il programma, come prima cosa è stata effettuata l’indicizzazione dei documenti della collezione in esame. E’ importante dire che è
stato scelto di indicizzare solamente la cartella contenente i nostri documenti
di test. Se non avessimo operato questa scelta, copernic Desktop Search 2
avrebbe indicizzato anche i seguenti elementi:
-
la cartella ‘Documenti’ di Windows;
la cartella ‘Desktop’ di Windows;
la cronologia dei browser;
i ‘preferiti’ dei browser;
Da notare che, dopo una prima indicizzazione, le successive effettuano semplicemente un aggiornamento incrementale del file di indici precedentemente
creato.
3
3
Analisi dei risultati
Copernic Desktop Search 2 effettua di default l’’AND’ di ogni parola (AND-filling), ottenendo un numero esiguo di risultati complessivi. Per
l’esecuzione della valutazione perciò sono state modificate le query date inserendo un ‘OR’ tra una parola ed un’altra.
In base all’analisi sui risultati di ciascuna query, si è ipotizzato che Copernic
Desktop Search 2 utilizzi il modello di reperimento booleano. Per quanto
riguarda il ‘matching’ delle parole, si è osservato che il programma considera
ogni parola data in ricerca come prefisso delle parole trovate: ad esempio,
cercando ‘nation’ verranno reperiti tutti i documenti contenenti ‘nation’, ‘nations’, ‘national’ o simili.
Dopo l’esecuzione di Trec Eval si sono ottenuti i seguenti risultati per Copernic Desktop Search 2:
Map: 0.0074
R-prec: 0.0038
P5: 0.0038
P10: 0.0038
recall5: 0.0017
recall10: 0.0032
Dai risultati ottenuti si evince che Copernic ottiene valori di richiamo, precisione e map molto bassi. Probabilmente questo è dovuto al fatto che il
programma ordina i risultati per nome del file e non gestisce una stop list.
Per MySQL si sono ottenuti invece i seguenti risultati:
Map: 0.3370
R-prec: 0.3610
P5: 0.4038
P10: 0.3173
recall5: 0.2410
recall10: 0.3132
I risultati molto più elevati per tutti i valori rispetto a Copernic Desktop
Search 2 sono evidentemente dovuti al fatto che MySQL ordina i risultati
per ciò che nella documentazione viene definito relevance value. Inoltre
MySQL gestisce una stop list che considera parole di lunghezza inferiore ai
quattro caratteri prive di significato semantico.
4
4
Confronto e conclusioni
Dai risultati ottenuti si può notare una grande differenza tra i parametri di
valutazione di Copernic e MySQL. Per questo motivo abbiamo voluto testare
MySQL abilitando la modalità booleana, utilizzando il seguente formato:
SELECT *
FROM documento
WHERE match(testo) AGAINST (query IN BOOLEAN MODE)
Si noti che in questo caso i risultati non vengono ordinati per rilevanza ma
per chiave primaria (identificativo del documento).
In questo modo otteniamo i seguenti risultati con Trec Eval:
Map: 0.0181
R-prec: 0.0114
P5: 0.0038
P10: 0.0058
recall5: 0.0017
recall10: 0.0038
Questi risultati non si discostano di molto da quelli di Copernic Desktop
Search 2. Infatti P5 e recall5 sono identici, mentre gli altri valori si discostano di poco. I valori di Map e R-prec più alti di MySQL sono evidentemente dovuti all’utilizzo di una stop list, la quale elimina un gran numero di
documenti non rilevanti.
In conclusione, possiamo affermare che Copernic Desktop Search 2 è un ottimo motore di ricerca se utilizzato con query brevi e specializzate, soprattutto
grazie alla sua gestione del file di indice.
Per contro, quando vengono utilizzate query più simili al linguaggio naturale
notiamo una notevole imprecisione nel reperimento dei documenti, arrivando
molto spesso a situazioni in cui più della metà della collezione viene restituita
come risultato.
5
Fig.1 Precisione ai livelli di richiamo per CDS2
Fig.2 Precisione ai livelli di richiamo per MySQL
6
Fig.3 Confronto della precisione ai vari livelli di richiamo
7