Deliverable 2.4a

Transcript

Deliverable 2.4a
Rapporto tecnico contenente la selezione dei dataset per
l’addestramento e la convalida del caso di studio relativo
all’analisi web
16 febbraio 2015
Indice
1 Individuazione dei dataset
1
2 Dataset Repositories
2.1 Dataset più Rilevanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Web Directories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
3
3 Selezione dei Dataset
3.1 Analisi delle caratteristiche dei dataset disponibili . . . . . . . . . . . . . . .
3.2 Scelta del Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
4
7
1
Individuazione dei dataset
Il documento è preposto a riportare l’analisi dei dataset disponibili per l’addestramento e
la convalida del sistema riguardanti l’ambito Web. Verranno descritte e analizzate le varie
risorse e in base a tali considerazioni viene motivata la scelta dei dataset adottati per le sperimentazioni. i dataset di interesse per il progetto sono quelli aventi dati di tipo testuale;
in particolare, le sperimentazioni in questione riguardano la generazione e convalida di una
tassonomia a partire da documenti di tipo testuale in ambito Web. Tali documenti pertanto
dovranno essere costituiti da contenuto testuale estratto da pagine Web o newsgroup. Attualmente diversi dataset sono reperibili gratuitamente dal web; di seguito riportiamo una
descrizione generale delle varie risorse di possibile interesse.
2
Dataset Repositories
Esistono attualmente diversi repository in cui si possono reperire i dataset necessari. Il
repository è un archivio digitale che esporre i dati, preservandoli in modo che siano sempre
disponibili nel corso del tempo, migrandoli nel caso cambino i formati e i supporti. Si possono
scegliere quali permessi dare a chi utilizza i dati attraverso la licenza. In genere si usano licenze
Creative Commons1 che obbligano a citare chi ha prodotto i dati. Tra i vari repository, i più
1
https://creativecommons.org/
1
completi e diffusi nella comunità scientifica in ambito di machine learning sono descritti di
seguito.
• UCI Machine Learning Repository2 . Inizialmente creato da ricercatori e studenti
dell’università della California-Irvine come archivio ftp, e attualmente gestito in collaborazione con l’università del Massachusetts Amherst, il repository UCI fornisce alcuni
dei più diffusi dataset in diversi settori del machine learning, fornendo dati sia di tipo
nominale che numerico, per sistemi e algoritmi di classificazione, clustering, regressione
etc.
• Linked Data3 . In informatica, i “linked data” costituiscono una modalità di pubblicazione, condivisione e connessione di dati strutturati e collegati tra loro. Il portale LinkedData fornisce diversi dataset relativi a tale tipologia di dati alla comunità
scientifica.
• CKAN4 . E’ un catalogo gestito da una community specifica (formata da organi istituzionali, centri di ricerca, dipartimenti universitari etc.) che contiene dataset utili
reperibili in Internet con licenze open source.
• Yahoo! Webscope5 . La nota società Yahoo!6 mette a disposizione della comunità
scientifica diversi dataset creati dai propri ricercatori o in alcuni casi collezionati dalle
attività degli utenti del portale.
• TREC Datasets7 . Contiene i dataset (la maggior parte a pagamento) messi a disposizione dal NIST8 (National Institute of Standards and Technology) durante le varie
edizioni di una serie di conferenze scientifiche (TREC: Text REtrieval Conference) nell’ambito dei settori in cui il focus è sull’elaborazione di documenti testuali. L’idea
principale era fornire una serie di dataset “standard” per le varie pubblicazioni del
convegno, in modo da poter fornire alla comunità un supporto di confronto tra i vari
algoritmi, sistemi, metodi, etc.
2.1
Dataset più Rilevanti
Di seguito elenchiamo i dataset più diffusi disponibili in ambito della categorizzazione di
testi, e che potrebbero risultare di interesse per le sperimentazioni del progetto. Sono stati considerati in questo elenco i dataset aventi un appropriato numero di categorie e di
documenti.
• Reuters Dataset9 . Attualmente uno dei dataset reali più utilizzati nel campo della
classificazione di testi. E’ una collezione di articoli web collezionati dal sito di news
della società Reuters Ltd. and Carnegie Group. Ogni articolo è stato manualmente
etichettato secondo una struttura gerarchica di categorie. Una delle prime versioni
2
http://archive.ics.uci.edu/ml/about.html
http://linkeddata.org/
4
http://datahub.io/
5
http://webscope.sandbox.yahoo.com/index.php
6
http://www.yahoo.com
7
http://trec.nist.gov/
8
http://www.nist.gov/
9
http://trec.nist.gov/data/reuters/reuters.html
3
2
(denominata Reuters-21578), resa disponibile nei primi anni ’90, è stata la risorsa di
riferimento per le sperimentazioni su algoritmi e sistemi di elaborazione di documenti
testuali. La collezione contiene circa 20000 documenti. Nel 2000 è stata rilasciata
una versione più estesa (denominata RCV1 per la versione contenente articoli in lingua
inglese, e RCV2 per la collezione multilingua), contenente circa 1 milione di articoli.
• OHSUMED10 . E’ un set di documenti formati da titoli e abstract di pubblicazioni
scientifiche in ambito medico. I circa 350000 documenti sono classificati secondo una
strutture gerarchica aventi circa 14000 nodi.
• 20 Newsgroups11 . Una serie di articoli (circa 20000) estratti da 20 newsgroup. Un
newsgroup è uno degli spazi virtuali creato su una rete di server interconnessi per discutere di un argomento (topic) ben determinato. Le 20 categorie sono spesso viste in
una struttura gerarchica, in quanto alcune classi sono sotto-categorie di un topic più
generale.
• BankSearch12 . E’ una collezione di pagine web categorizzate in 11 categorie, per un
totale di circa 11000 pagine. Le categorie e le pagine sono estratte dalla web directory
DMOZ (vedi sezione 2.2).
• Common Crawl Corpus13 . Contiene circa 5 milioni di pagine collezionate dai crawler di Amazon. I dataset sono reperibili gratuitamente, anche se la loro elaborazione
richiede risorse computazionali elevate (pochi file di dimensione spesso superiori al GB).
Amazon mette a disposizione, a pagamento, un servizio web atto all’elaborazione con
sistemi distribuiti (Amazon Elastic MapReduce14 ) basato sul framework Hadoop.
• WayBack Machine15 . E’ un servizio del portale Internet Archive16 il quale fornisce la
possibilità di visualizzare miliardi di pagine web. Il sistema “salva” milioni di pagine ogni
giorno, e le rende disponibili per la visualizzazione. Per una determinata pagina web,
quindi, è possibile visualizzare il suo contenuto per diversi momenti del passato (da fine
anni 90 agli ultimi giorni). Il portale attualmente contiene circa 450 miliardi di pagine
(comprese di testo, codice, metadati, file multimediali etc.). Nel 2012 una porzione di
dati (quasi 3 milioni di pagine web incirca 80 Tb) è disponibile gratuitamente per uso
non commerciale, facendo richiesta alla società che gestisce il portale.
• TREC Datasets. I dataset messi a disposizione sono di diverse tipologie, tra cui anche
raccolte di pagine web. Sono ampiamente diffusi, ma sono reperibili a pagamento.
2.2
Web Directories
Altra risorsa di fondamentale importanza, soprattutto nella progettazione di motori di ricerca, è rappresentata dalle web directory. Una web directory è un elenco di siti web suddivisi
in maniera gerarchica. Non è né un motore di ricerca né un “archiviatore” di siti mediante
10
http://trec.nist.gov/data/t9 filtering.html
http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html
12
http://lib.stat.cmu.edu/datasets/bankresearch.zip
13
http://aws.amazon.com/datasets/41740
14
http://aws.amazon.com/elasticmapreduce/
15
https://archive.org/web/
16
https://archive.org/
11
3
tag, ma li raccoglie ed organizza per mezzo di categorie e sotto-categorie tematiche. Una
web directory consiste dunque in un portale in cui le risorse sono organizzate per aree tematiche, e vengono presentate come indici o, soprattutto, come tassonomie. Al giorno d’oggi
esistono migliaia e migliaia di Web directory, la maggior parte di esse create manualmente
con team di esperti o volontari, in cui l’iscrizione e l’indicizzazione dei siti può avvenire in
maniera gratuita o a pagamento. Le maggiori Web directory (ad esempio DMOZ17 , WWW
Virtual Library18 , Best of The Web19 o Joe Ant20 ) contengono in genere milioni di pagine
referenziate, categorizzate in centinaia di migliaia di categorie; dato che la quasi totalità delle
web directory non fornisce i dati in formato “scaricabile” (ad esempio dump di database, file
RDF/XML etc.), per recuperare strutture e link si rende comunque necessario l’utilizzo di
strumenti (quali crawler, spider, robot etc.) in grado di scaricare e analizzare i portali per
estrarre i dati. Tra le più importanti Web directory, l’unica per la quale è reso disponibile il
dump delle pagine referenziate è DMOZ. DMoz (abbreviazione di Directory.Mozilla, il nome
di dominio del suo sito), noto anche come Open Directory Project (ODP), è una web directory
multilingue a contenuto aperto di proprietà della Time Warner e mantenuta da una comunità
virtuale di redattori volontari. OPD può essere visto come una raccolta di hyperlinks indicizzati, reperibili nel Web. Essa è organizzata gerarchicamente per argomenti – dal vasto allo
specifico. La parola “Open” nel nome del progetto, indica un approccio assai diverso rispetto
ad altre directory esistenti, di natura strettamente commerciale: gli elenchi di siti classificati
da ODP vengono infatti resi disponibili gratuitamente a chiunque ne voglia fare uso, magari
per ripubblicare la directory su altri siti. Questa scelta rende le informazioni raccolte da
DMOZ aperte a tutti e ha favorito notevolmente la diffusione dei dati della directory sul web.
ODP è sostenuta dagli editori della comunità, i quali valutano i siti per l’inclusione nell’indice;
tutte le richieste sono soggette alla valutazione dell’editore. I criteri seguiti per decidere se
inserire o meno un sito in catalogo si basano esclusivamente sui contenuti dei siti stessi.
3
Selezione dei Dataset
In questa sezione, dopo aver analizzato le caratteristiche, verranno illustrati i vantaggi e
gli svantaggi del potenziale uso di ogni risorsa nell’ambito del progetto, motivando cosı̀ la
decisione su quali dati utilizzare per le sperimentazioni nell’ambito Web.
3.1
Analisi delle caratteristiche dei dataset disponibili
Di seguito riportiamo i dataset di possibile interesse, in cui i dati sono reperibili in formato
testuale. La Tabella 1 riporta in sintesi le caratteristiche di ogni dataset analizzato. La voce
Tipologia indica se i dati sono relativi a pagine web o altri tipi di dato testuale; la colonna
Policy indica se i dati sono reperibili gratuitamente, o dietro il pagamento del servizio; ogni
dataset è caratterizzato inoltre dalla Popolosità dei dati, ovvero il numero totale di documenti;
la Reperibilità indoca se il sito mette a disposizione o meno i dati (download diretto), o se è
necessario una fase di acquisizione ulteriore (ad esempio crawling o parsing di pagine web), in
quanto, nell’ambito del progetto, i dati di interesse sono quelli per cui è disponibile il codice
17
http://www.dmoz.org/
http://vlib.org/
19
http://botw.org/
20
http://www.joeant.com/
18
4
Tabella 1: Caratteristiche dei dataset analizzati.
Tipologia
Policy
DMOZ
Pagine Web
Free
WayBack Machine
Pagine Web
Free
Altre Web Directory
Pagine Web
Free/Pay
Variabile
Reuters
Articoli news
Free
OHSUMED
Abstract
paper
scientifici
Free
20 Newsgroups
News
Free
BankSearch
Pagine Web
Free
Common Crawl Corpus
Pagine Web
TREC Datasets
Varie
Formato dei
dati
Popolosità
Reperibilità
≈ 4M di
documenti
≈ 3M di
documenti
≈ 1M di
documenti
Download DB
Dump
Crawler
necessario
Crawler
necessario
Donwload
diretto
350000
documenti
Download
diretto
20000
documenti
11000
documenti
Download
diretto
Download
diretto
Free
(Map-Reduce
pay)
≈ 5M di
documenti
Download
diretto
Codice
HTML
Pay
Variabile
Download
diretto
Varie
Link HTML
Link HTML
Link HTML
File testuali
File testuali
File testuali
Codice
HTML
HTML o testo estratto da esso; a tal proposito viene indicato inoltre in tabella il Formato
dei dati.
La Web directory DMOZ è sicuramente uno degli strumenti più diffusi in ambito scientifico. In letteratura molteplici pubblicazioni riguardano lavori in cui la tassonomia DMOZ è
la fonte principale dei dati necessari all’addestramento e al test di algoritmi e sistemi. L’elevata popolosità, sia in termini di numero di documenti, sia in termini di categorie, nonché la
struttura gerarchica molto profonda, rendono la tassonomia versatile e adattabile a molteplici
settori di ricerca. Ma proprio l’elevata complessità strutturale presenta la necessità di processi
di affinamento ed estrazione di sotto-strutture più regolari ed uniformi; infatti, la tassonomia
non ha una struttura omogenea, sia in termini di struttura tassonomica (la profondità varia a
seconda del ramo considerato), sia in termini di popolosità di ciascuna categoria (i nodi possono avere da poche decine a migliaia di documenti). Inoltre sono popolate per la maggior parte
soltanto le foglie della tassonomia (sono pochi i casi in cui i nodi intermedi hanno documenti
propri, e comunque difficilmente si supera la decina di documenti), anche se nell’ambito del
progetto questo costituisce un vantaggio, in quanto i dati di partenza sono rappresentati dalle
foglie della tassonomia da generare. Un aspetto importante è dato dal fatto che la tassonomia
è reperibile facilmente, in quanto è disponibile il download del database contente struttura
della tassonomia, metadati e link alle pagine. E’ comunque necessaria una fase di download
delle pagine Web considerate. Le altre Web Directory, compresa quella derivante da WayBack Machine, non sono diffuse per l’estrazione di dataset, pur essendo spesso più popolate,
e, a seconda degli intenti delle società che le forniscono, meglio strutturate. L’aspetto critico
(e contrastante riguardo l’ultimo aspetto) è che per la maggior parte di esse l’indicizzazione,
e quindi la presenza nella struttura, avviene a pagamento (per gli owner dei siti Web), e
quindi potrebbero non essere rappresentative di una data categoria (ad esempio, per alcuni
nodi potrebbero esserci pochi elementi). Si riscontrano dunque le stesse criticità riscontrate
5
Tabella 2: Analisi dei dataset.
DMOZ
Vantaggi
Gerarchia profonda. Popolosità
elevata. Reperibilità immediata
del DB. La più adottata nella
comunità scientifica.
WayBack Machine
Popolosità elevata. Struttura
gerarchica.
Altre Web Directory
Popolosità elevata. Struttura
gerarchica
Reuters
OHSUMED
20 Newsgroups
BankSearch
Gerarchia ben strutturata. Diffusa
nella comunità scientifica.
Facilmente reperibile.
Discreta diffusione nella comunità
scientifica. Struttura gerarchica.
Ampia diffusione nella comunità
scientifica. Facilmente reperibile.
Facilmente reperibile. Codice
HTML. Pagine filtrate. Popolosità
elevata. Struttura gerarchica.
Common Crawl Corpus
Popolosità elevata. Struttura
gerarchica.
TREC Datasets
Ampia diffusione. Possibilità di
diverse tipologie.
Svantaggi
Necessità di download di ogni
pagina Web. Struttura non
uniforme.
Necessità di crawling e recupero
struttura. Non diffusa nella
comunità scientifica.
Per le free, necessità di download.
Pagamento per la maggior parte.
Non diffuse nella comunità
scientifica.
No pagine Web.
Dominio molto specifico. No
pagine Web.
No gerarchia.
Scarso numero di classi foglia (10).
Utilizzo marginale nella comunità
scientifica.
Mole di dati elevata: framework
per map-reduce a pagamento. non
diffusa nella comunità scientifica.
Dati reperibili a pagamento.
in DMOZ, e ovviamente a parità di aspetti critici è preferibile utilizzare una risorsa consolidata e diffusa, in modo da avere riscontro nella comunità scientifica. Il dataset BankSearch
presenta i vantaggi di (i) essere ben strutturato, in quanto c’è un perfetto bilanciamento tra
le classi; (ii) di avere i documenti già “filtrati”, ovvero le pagine hanno contenuto informativo
significativo e sono rimosse le pagine dinamiche, script etc.; (iii) di avere un elevato numero
di documenti per classe (un migliaio), e (iv) di essere facilmente reperibile in quanto il codice
HTML di ogni pagina è fornito per il donwload diretto. Lo svantaggio principale è che il
numero di classi è limitato (10), e quindi se ne esclude l’utilizzo per le sperimentazioni finali,
ma può essere adoperato come “toy” dataset per le sperimentazioni preliminari sugli algoritmi
implementati. I dataset reperibili dal sito relativo a TREC sarebbero di grande interesse,
data la diffusione nella comunità scientifica come dati di riferimento e di comparazione tra
diversi sistemi e algoritmi, e dati i diversi dataset riguardanti il Web, ma l’acquisizione dei
dati richiede un significativo investimento in denaro (in media qualche centinaio di dollari per
dataset). I dataset Reuters, pur avendo struttura e contenuti significativi, hanno il difetto
principale di non essere testo derivante da pagine Web. Pur essendo non rilevanti nell’ambito
specifico, sono comunque tenuti in considerazione per sperimentazioni parallele sulle metriche e sugli algoritmi definiti durante il progetto, fornendo un riscontro in ulteriori ambiti e
settori. Stesso discorso per il dataset 20 Newsgroups, il quale ha però lo svantaggio di non
avere una struttura gerarchica definita, seppure alcune classi possono essere intuitivamente
raggruppate in macro-categorie.
Il dataset OHSUMED invece, oltre ad essere relativo ad articoli scientifici e non a pagine
6
Web, ha lo svantaggio di essere definito per un dominio molto specifico (pubblicazioni in
ambito medico), e di possibile scarsa rilevanza per gli algoritmi definiti. Discorso a parte per
il dataset Common Crawl Corpus, il quale, pur avendo un elevato numero di documenti
e di classi, è di difficile elaborazione; la mole di dati (≈ 80T B di codici HTML e metadati),
fa sı̀ che si rende necessario utilizzare framework e algoritmi di Map-Reduce; Amazon mette
a disposizione i suoi servizi, ma a pagamento. La Tabella 2 fornisce un riepilogo di vantaggi
e svantaggi di ogni dataset analizzato.
3.2
Scelta del Dataset
In base alle considerazioni precedenti, la risorsa considerata per le sperimentazioni è DMOZ.
Nonostante la non omogeneità della tassonomia, il fatto di avere un dump del database che
permetta una relativa limitazione delle risorse computazionali (l’intera tassonomia è disponibile in meno di 2 GB di dati) ne facilita l’analisi e l’elaborazione della struttura. Questo è
dato dal fatto di avere nel database solo i link di ogni pagina Web; se da un lato potrebbe
risultare uno svantaggio, in realtà, volendo estrarre una sotto-tassonomia da DMOZ, è più
semplice avere a disposizione soltanto i link, in quanto l’accesso e l’elaborazione della struttura comporta un minore sforzo in termini di risorse e tempi computazionali. Il primo passo
è stato quello di scegliere l’insieme delle classi foglia. Il lavoro è stato in prevalenza manuale;
l’analisi la struttura DMOZ e la scelta delle classi è avvenuta in maniera totalmente manuale.
Le classi foglia scelte, vista la struttura non omogenea della tassonomia, ha comportato il
fatto di scegliere in prevalenza dei nodi intermedi della tassonomia originale, in quanto, oltre
l’elevata profondità per le foglie di DMOZ, si ha la criticità di non avere sufficienti documenti
per ogni foglia (la maggior parte delle foglie di DMOZ, avendo un elevato grado di specificità,
contiene pochi documenti). Per tale motivo, i documenti di ciascuna classe foglia scelta sono
risultanti dell’unione dei documenti totali contenuti nel sotto-albero risultante per ogni classe.
Una volta scelta la struttura tassonomica, per ogni documento considerato, il quale nel
database è caratterizzato da un link, è stata scaricata la pagina relativa (è stato implementato
un semplice script per fare il parsing della pagina web); dal codice HTML si è recuperato il
contenuto testuale. Le pagine non più attive e quelle con scarso contenuto testuale sono state
eliminate. Da ogni pagina è stato rimosso il rumore (tag, metadati, link). Il report D3.4a
descrive nel detaglio il dataset utilizzato per le sperimentazioni.
7