immagine satellitare Yellow Pagina

Transcript

immagine satellitare Yellow Pagina
Tecniche avanzate di Content Analytics
applicate ad attività di intelligence
Dario Saracino
[email protected]
CCKM - Centro di Competenze sul KM
Il gruppo Exprivia
TRENTO
Exprivia SpA è una società specializzata
nella progettazione e realizzazione di
soluzioni e servizi IT per il mercato
corporate, la sanità e la pubblica
amministrazione.
Storia: nata nel 1983 come AISoftw@re,
cambia nome in Exprivia nell’Ottobre del
2005 a seguito della fusione tra Abaco
Information Services e AISoftw@re
MILANO
VICENZA
PIACENZA
BOLOGNA
GENOVA
Organico: 1200 persone circa
R&D Labs
MOLFETTA
BARI
Ricavi (al 31/12/2009): 90 Ml Euro
Quotazioni in borsa:
ROMA
Competence
Centre on Knowledge
Management
(CCKM)
• Nuovo mercato di Borsa
Italiana (2000)
• Mta segmento Starr (2007)
MADRID
2
CCKM: cosa facciamo
Dal 1986, il Competence Centre on Knowledge Management di Exprivia
sviluppa soluzioni di Content Analytics
 per l’analisi di fonti di informazioni strutturate (database) e non
strutturate (documenti di testo) finalizzata all’individuazione di relazioni
causali
 basate su DeepKnowledge, tecnologia proprietaria per l’analisi semantica
dell’informazione
 specificamente pensate per una loro semplice integrazione in sistemi di
Enterprise Content Management, Customer Relationship Management,
Workflow Management, eLearning, ecc.
 largamente applicate a supporto di attività di intelligence
(fondamentalmente in ambito Homeland Security & Protection – HS&P)
 Real Time Monitoring and Alerting
 OSINT (Open Source Intelligence)
HS&P e antiforde
Antifrode
Homeland Security & Protection
Monitoring and Alerting (M&A)
Frode Interna
Frode Esterna
 controllo delle frontiere
 analisi e correlazione dati da sensori (tracce radar,
dati meteo, ecc.), comunicati testuali, ecc.
 intrusion detection
 analisi e correlazione di log di sistemi informatici, di
sistemi di controllo di accesso, email, ecc.
Open Source Intelligence (OSINT)
 raccolta e analisi di informazioni mediante la
consultazione di fonti di pubblico accesso (WWW)
Brand Spoofing
Phishing
Automazione dei processi di M&A
definizione profili di comportamento
selezione caratteristiche
di interesse (feature / KPI)
definizione valori caratteristici delle feature / KPI
fortemente assistita
automatica
Livello di automazione
(tecniche geometriche +
inferenza statistica +
correlazione semantica)
correlazione tra feature / KPI
fortemente assistita
(automatica + validazione manuale)
Innovazione: impatto su costi di gestione e copertura
debolmente assistita
debolmente assistita
(inferenza statistica)
(visual rule modeler)
100
manuale
manuale
manuale
(rule based)
0
Modellazione
comportamenti
da analisi dello
storico
Analisi fonti in
tempo reale e
generazione
allarmi
Acquisizione
fonti
Analisi allarmi
Risoluzione
Generazione
Report e
Storicizzazione
Modellazione dei comportamenti
un esempio di applicazione tecnologie avanzate
feat. 1
feat. 1
record 1
Latent Semantic
Analysis (LSA)
Tecnica geometrica
attraverso la quale
è possibile
individuare la
semantica sottesa
(latente) a
informazioni
strutturate e non
strutturate
attraverso lo studio
della correlazione
dei valori assunti
da una serie data di
caratteristiche
(feature) attraverso
le quali si può
descrivere un
problema.
feat. 1
record 1
cluster 1
LSA
CL
record 2
cluster 2
record 2
feat. 2
feat. 3
feat. 3
feat. 3
LSA
CL
Intrusion Detection: un esempio
7
Intrusion Detection (1/2)
Esercizio: fornire al sistema di Profiling Automatico un insieme (campione) di log
relativi ad un web server senza alcuna informazione relativa alla loro
appartenenza a determinate classi di intrusione (informazione nota a priori) e
verificare la capacità del sistema di ricostruire raggruppamenti (cluster) di log
coerenti e rappresentativi delle classi di intrusione di partenza.
Dataset:
500.000 log di un web server
(benchmark standard della Carnegie Mellon University)
Campione: 22.000 log (selezionati casualmente)
Feature:
41 (durata connessione, protocollo, tentativi di login errati, byte
scambiati, ecc.)
Class.:
5 classi di intrusione: smurf, buffer overflow, neptune, ipsweep,
guess password, normal
Profiling
Automatico
Dati Storici
Visual Rules
Validation
Regole
(generate automaticamente)
Regole
(validate)
Intrusion Detection (2/2)
Output: 22.000 log raggruppati in 34 cluster
NOTA: da ogni cluster il sistema deriva automaticamente una regola della forma:
IF(numero richieste > 10 AND ecr_i AND SF AND icmp AND …)
Validazione dei 34 cluster rilevati (effettuata controllando se le
regole generate corrispondono ad una delle classi di intrusione previste
dal benchmark o se esse siano prive di senso.
Il confronto tra i risultati della validazione manuale e le informazioni di
classificazione del benchmark hanno mostrato una accuracy del
sistema di profiling automatico pari al 99,67%.
Lo stesso risultato in termini di accuracy si può ottenere utilizzando
un classificatore bayesiano addestrato con l’1% del materiale; in tal
caso sarebbe quindi necessario definire preventivamente e
manualmente (normalmente non nota) la classe di appartenenza di
almeno 220 log con un effort almeno 6 volte superiore.
Profiling
Automatico
Dati Storici
Visual Rules
Validation
Regole
(generate automaticamente)
Regole
(validate)
Generazione degli allarmi
Un sistema di profiling automatico quale quello introdotto, producendo in
output regole, può essere facilmente affiancato a sistemi di intrusion detection
preesistenti.
Di contro, lo sviluppo ex-novo di un sistema di gestione della frode consente
l’applicazione di tecniche quali LSA, LPP e SVM, con l’evidente vantaggio di
poter utilizzare proprietà quali quelle geometriche per “pesare” un allarme.
Esempio
Regola di scatto:
SE Feat. 1 > x AND Feat. 2
> y THEN ALERT
La logica dell’esempio è
binaria: dato un record,
l’applicazione della regola
restituisce
come
unici
valori VERO o FALSO
Record 1 è vicino al
cluster Frode 1 (è a
distanza d), quindi è
“simile”
ai
record
propri di Frode1
Record 2 è lontano
da tutti i cluster
rappresentativi
di
azioni fraudolente
record 2
feat. 1
Frode 1
d
record 1
Frode 2
feat. 3
Case Study: OSINT in EUSC
11
EUSC
Centro Satellitare dell’Unione Europea
(European Union Satellite Centre - EUSC)
agenzia del Consiglio dell’Unione europea
che si dedica allo sfruttamento e all’elaborazione
di informazioni ricavate dall’analisi di immagini
satellitari della Terra. Obiettivo del centro è
quello di sostenere il processo decisionale
dell’Unione nel contesto della politica estera e
di sicurezza comune (PESC).
Il problema:
la gestione delle “informazioni collaterali”
Informazioni collaterali
 informazioni da utilizzarsi come supporto per l’intrpretazione delle
immagini satellitari
 tipicamente contenute in documenti di testo
 cataloghi militari, libri, docuemtazione interna, ecc.
 fonti web, inclusi social network, forum, blog, ecc. (OSINT)
In EUSC, le informazioni collaterali devono essere
 organizzate secondo una tassonomia concettuale derivata dallo Standard
STANAG 3769 (minimum resolved object size and scale for imagery
interpretation)
 geo-referenziate
 reperite da WWW continuativamente ed analizzate al fine di
 valutarne l’attendibilità
 correlarle e confrontarle con informazioni pre-esistenti
 identificare potenziali situazioi di rischio (alerting)
La soluzione (1/2)
DeepKnowledge
monitoraggio continuo del WWW
WWW
Agente di interrogazione
(un set di query per ogni concetto stanag)
Web Clustering e classificazione dei
contenuti WEB
GIS
WEB CLIENT
(addestramento continuo)
Analisi
Estrazione, strutturazione
e correlazione di
informazioni di interresse
GIS Server
Analisi di compliance e
generazione di alert
Ontologia basata
sullo STANAG 3769
La soluzione (2/2)
Esempio di complessità:
2.500 pagine web automaticamente
reperite

650.000 termini identificati

45.000 cluster semantici
identificati e relazionati
yellow cake
Grazie
per informazioni contattare: [email protected]
16