immagine satellitare Yellow Pagina
Transcript
immagine satellitare Yellow Pagina
Tecniche avanzate di Content Analytics applicate ad attività di intelligence Dario Saracino [email protected] CCKM - Centro di Competenze sul KM Il gruppo Exprivia TRENTO Exprivia SpA è una società specializzata nella progettazione e realizzazione di soluzioni e servizi IT per il mercato corporate, la sanità e la pubblica amministrazione. Storia: nata nel 1983 come AISoftw@re, cambia nome in Exprivia nell’Ottobre del 2005 a seguito della fusione tra Abaco Information Services e AISoftw@re MILANO VICENZA PIACENZA BOLOGNA GENOVA Organico: 1200 persone circa R&D Labs MOLFETTA BARI Ricavi (al 31/12/2009): 90 Ml Euro Quotazioni in borsa: ROMA Competence Centre on Knowledge Management (CCKM) • Nuovo mercato di Borsa Italiana (2000) • Mta segmento Starr (2007) MADRID 2 CCKM: cosa facciamo Dal 1986, il Competence Centre on Knowledge Management di Exprivia sviluppa soluzioni di Content Analytics per l’analisi di fonti di informazioni strutturate (database) e non strutturate (documenti di testo) finalizzata all’individuazione di relazioni causali basate su DeepKnowledge, tecnologia proprietaria per l’analisi semantica dell’informazione specificamente pensate per una loro semplice integrazione in sistemi di Enterprise Content Management, Customer Relationship Management, Workflow Management, eLearning, ecc. largamente applicate a supporto di attività di intelligence (fondamentalmente in ambito Homeland Security & Protection – HS&P) Real Time Monitoring and Alerting OSINT (Open Source Intelligence) HS&P e antiforde Antifrode Homeland Security & Protection Monitoring and Alerting (M&A) Frode Interna Frode Esterna controllo delle frontiere analisi e correlazione dati da sensori (tracce radar, dati meteo, ecc.), comunicati testuali, ecc. intrusion detection analisi e correlazione di log di sistemi informatici, di sistemi di controllo di accesso, email, ecc. Open Source Intelligence (OSINT) raccolta e analisi di informazioni mediante la consultazione di fonti di pubblico accesso (WWW) Brand Spoofing Phishing Automazione dei processi di M&A definizione profili di comportamento selezione caratteristiche di interesse (feature / KPI) definizione valori caratteristici delle feature / KPI fortemente assistita automatica Livello di automazione (tecniche geometriche + inferenza statistica + correlazione semantica) correlazione tra feature / KPI fortemente assistita (automatica + validazione manuale) Innovazione: impatto su costi di gestione e copertura debolmente assistita debolmente assistita (inferenza statistica) (visual rule modeler) 100 manuale manuale manuale (rule based) 0 Modellazione comportamenti da analisi dello storico Analisi fonti in tempo reale e generazione allarmi Acquisizione fonti Analisi allarmi Risoluzione Generazione Report e Storicizzazione Modellazione dei comportamenti un esempio di applicazione tecnologie avanzate feat. 1 feat. 1 record 1 Latent Semantic Analysis (LSA) Tecnica geometrica attraverso la quale è possibile individuare la semantica sottesa (latente) a informazioni strutturate e non strutturate attraverso lo studio della correlazione dei valori assunti da una serie data di caratteristiche (feature) attraverso le quali si può descrivere un problema. feat. 1 record 1 cluster 1 LSA CL record 2 cluster 2 record 2 feat. 2 feat. 3 feat. 3 feat. 3 LSA CL Intrusion Detection: un esempio 7 Intrusion Detection (1/2) Esercizio: fornire al sistema di Profiling Automatico un insieme (campione) di log relativi ad un web server senza alcuna informazione relativa alla loro appartenenza a determinate classi di intrusione (informazione nota a priori) e verificare la capacità del sistema di ricostruire raggruppamenti (cluster) di log coerenti e rappresentativi delle classi di intrusione di partenza. Dataset: 500.000 log di un web server (benchmark standard della Carnegie Mellon University) Campione: 22.000 log (selezionati casualmente) Feature: 41 (durata connessione, protocollo, tentativi di login errati, byte scambiati, ecc.) Class.: 5 classi di intrusione: smurf, buffer overflow, neptune, ipsweep, guess password, normal Profiling Automatico Dati Storici Visual Rules Validation Regole (generate automaticamente) Regole (validate) Intrusion Detection (2/2) Output: 22.000 log raggruppati in 34 cluster NOTA: da ogni cluster il sistema deriva automaticamente una regola della forma: IF(numero richieste > 10 AND ecr_i AND SF AND icmp AND …) Validazione dei 34 cluster rilevati (effettuata controllando se le regole generate corrispondono ad una delle classi di intrusione previste dal benchmark o se esse siano prive di senso. Il confronto tra i risultati della validazione manuale e le informazioni di classificazione del benchmark hanno mostrato una accuracy del sistema di profiling automatico pari al 99,67%. Lo stesso risultato in termini di accuracy si può ottenere utilizzando un classificatore bayesiano addestrato con l’1% del materiale; in tal caso sarebbe quindi necessario definire preventivamente e manualmente (normalmente non nota) la classe di appartenenza di almeno 220 log con un effort almeno 6 volte superiore. Profiling Automatico Dati Storici Visual Rules Validation Regole (generate automaticamente) Regole (validate) Generazione degli allarmi Un sistema di profiling automatico quale quello introdotto, producendo in output regole, può essere facilmente affiancato a sistemi di intrusion detection preesistenti. Di contro, lo sviluppo ex-novo di un sistema di gestione della frode consente l’applicazione di tecniche quali LSA, LPP e SVM, con l’evidente vantaggio di poter utilizzare proprietà quali quelle geometriche per “pesare” un allarme. Esempio Regola di scatto: SE Feat. 1 > x AND Feat. 2 > y THEN ALERT La logica dell’esempio è binaria: dato un record, l’applicazione della regola restituisce come unici valori VERO o FALSO Record 1 è vicino al cluster Frode 1 (è a distanza d), quindi è “simile” ai record propri di Frode1 Record 2 è lontano da tutti i cluster rappresentativi di azioni fraudolente record 2 feat. 1 Frode 1 d record 1 Frode 2 feat. 3 Case Study: OSINT in EUSC 11 EUSC Centro Satellitare dell’Unione Europea (European Union Satellite Centre - EUSC) agenzia del Consiglio dell’Unione europea che si dedica allo sfruttamento e all’elaborazione di informazioni ricavate dall’analisi di immagini satellitari della Terra. Obiettivo del centro è quello di sostenere il processo decisionale dell’Unione nel contesto della politica estera e di sicurezza comune (PESC). Il problema: la gestione delle “informazioni collaterali” Informazioni collaterali informazioni da utilizzarsi come supporto per l’intrpretazione delle immagini satellitari tipicamente contenute in documenti di testo cataloghi militari, libri, docuemtazione interna, ecc. fonti web, inclusi social network, forum, blog, ecc. (OSINT) In EUSC, le informazioni collaterali devono essere organizzate secondo una tassonomia concettuale derivata dallo Standard STANAG 3769 (minimum resolved object size and scale for imagery interpretation) geo-referenziate reperite da WWW continuativamente ed analizzate al fine di valutarne l’attendibilità correlarle e confrontarle con informazioni pre-esistenti identificare potenziali situazioi di rischio (alerting) La soluzione (1/2) DeepKnowledge monitoraggio continuo del WWW WWW Agente di interrogazione (un set di query per ogni concetto stanag) Web Clustering e classificazione dei contenuti WEB GIS WEB CLIENT (addestramento continuo) Analisi Estrazione, strutturazione e correlazione di informazioni di interresse GIS Server Analisi di compliance e generazione di alert Ontologia basata sullo STANAG 3769 La soluzione (2/2) Esempio di complessità: 2.500 pagine web automaticamente reperite 650.000 termini identificati 45.000 cluster semantici identificati e relazionati yellow cake Grazie per informazioni contattare: [email protected] 16