Hyper Media News - Centro Ricerche Rai
Transcript
Hyper Media News - Centro Ricerche Rai
Lo sviluppo delle nuove piattaforme comporta necessità di disporre in tempo reale di contenuti audiovisivi funzionali e gestibili nella quantità e nella loro specificità. Di qui discendono il ruolo centrale della direzione Teche e, quindi, la necessità di sistemi di documentazione e indicizzazione sempre più snelli ed economici. In questo contesto il Centro Ricerche sta sperimentando tecnologie automatiche di analisi di segnali audiovisivi e testi, in collaborazione con enti di ricerca nazionali ed esteri. Volendo riassumere in alcuni punti fondamentali il percorso di studio effettuato in questo ambito, potremmo individuare i seguenti elementi imprescindibili: 33 l’indicizzazione dei contenuti multimediali è generalmente essenziale al loro ritrovamento e alla loro fruizione, indipendentemente dal modello di distribuzione; 33 le modalità di fruizione basate sul web, grazie all’interattività, impongono vincoli produttivi estremamente più stringenti rispetto al passato; 33 la migrazione verso il dominio web implica la necessità di integrare l’informazione proveniente da sorgenti eterogenee e indipendenti. Questi tre punti cardinali costituiscono la mappa di riferimento nella quale sono situati gli studi e i prototipi oggetto della presente scheda. Automatic Newscast Transcription System (ANTS) In particolare, è stata realizzata una piattaforma, denominata ANTS, mirata all’analisi automatica di notiziari. Si tratta di un sistema modulare nel quale diversi strumenti di analisi del segnale audiovisivo vengono coordinati da un motore di gestione di processo, che ha il compito di rendere sequenziali le fasi di elaborazione e di aggregare i dati risultanti. La tecnologia chiave impiegata è l’Automatic Speech Recognition (ASR) in grado di fornire una trascrizione testuale fedele di ciò che viene detto all’interno del programma. Il riconoscitore ASR impiegato è stato ottimizzato per lavorare nel dominio delle news mediante addestramento su un consistente numero di telegiornali trascritti manualmente. La qualità di trascrizione ottenuta si aggira attorno al 90% di riconoscimento corretto. Poiché il testo è sincronizzato con il segnale multimediale, data una parola è possibile accedere immediatamente al brano in cui essa viene pronunciata. Inoltre il riconoscitore effettua una segmentazione del segnale in base all’impronta vocale di chi parla. Il trascritto che si ottiene si presta ottimamente alla ricerca in testo libero e alla rielaborazione con tecniche di intelligenza artificiale. La segmentazione in notizie La segmentazione automatica in notizie viene effettuata da un modulo ideato e realizzato dal Centro Ricerche, basato sull’analisi del contenuto audiovisivo. Il concetto di base utilizzato è semplice, ma richiede una conoscenza a priori del formato del programma. Nel caso dei telegiornali Rai, una notizia è generalmente annunciata dal conduttore in studio e quindi approfondita con servizi esterni. Riuscendo ad identificare le sequenze in cui compare il conduttore (o alternativamente lo studio) si ottengono quindi dei punti di taglio coincidenti con il cambio di notizia. L’identificazione di tali sequenze viene effettuata utilizzando un modulo che suddivide il video in scene dal contenuto omogeneo e, quindi, le raggruppa per similitudine. Analizzando i raggruppamenti ottenuti è, poi, possibile selezionare quelli che presentano le caratteristiche più simili a quelle del modello prescelto. Per rafforzare l’ipotesi effettuata si utilizza la segmentazione in voci effettuata dal modulo ASR, facendo l’ipotesi che la voce del conduttore in studio sia quella che si presenta più spesso. In questo modo vengono minimizzati gli errori di riconoscimento del singolo strumento. L’identificazione corretta di cambio notizie risultante ha una precisione media di Centro Ricerche e Innovazione Tecnologica www.crit.rai.it 09/10 Motivazioni della ricerca circa l’80%. Effettuata la segmentazione in notizie, viene applicato un modulo di analisi semantica. Questo permette una classificazione automatica di un testo secondo lo schema utilizzato dai documentatori Rai, basato su 28 categorie principali relative al mondo giornalistico. La precisione ottenuta è comparabile a quella di un classificatore umano. I risultati dei processi delineati sono pubblicati in maniera sinottica attraverso un interfaccia di navigazione web, esemplificata in figura. Hyper Media News Hyper Media News è un sistema in grado di integrare le informazioni generate automaticamente da ANTS con le informazioni presenti sul web e rese disponibili attraverso i siti di informazione quotidiana online. Il sistema Hyper Media News, assieme ad ANTS, è già stato dimostrato con successo in diverse occasioni durante conferenze scientifiche internazionali e durante il Prix Italia 2009. Il principio di funzionamento di questo sistema si basa su un’innovativa tecnologia per l’aggregazione ibrida di oggetti, cioè il raggruppamento di oggetti di tipologia differente quali sono gli articoli testuali ritrovabili sui siti web di informazione e le unità elementari di informazione televisiva generate da ANTS. La tecnologia sviluppata permette anche di selezionare gli elementi rappresentativi dei raggruppamenti trovati, così da permettere l’implementazione di servizi di informazione innovativi, quali: 33 Servizi RSS (Really Simple Syndication) multimediali 33 Servizi Hot News e Topic Tracking 33 Navigazione visuale avanzata I servizi RSS multimediali sono costituiti dalla pubblicazione di canali RSS (un canale RSS è una risorsa web formattata secondo le specifiche RSS, un dialetto XML, che rappresenta liste di elementi in ordine cronologico di pubblicazione) contenenti i raggruppamenti trovati dal sistema, organizzati in maniera sequenziale nel tempo oppure indicizzati sulla base delle preferenze degli utenti. I servizi di Hot News sono costituiti dalla pubblicazione di rapporti giornalieri contenenti le notizie più importanti della giornata, con collegamenti ai servizi RSS contenuti e annotati automaticamente con parole chiave (tag). Il sistema mantiene un archivio storico di questi rapporti, per eventuale consultazione futura. Il portale Hyper Media News è riportato in figura. Il sistema offre agli utenti più avanzati una modalità di navigazione visuale basata sulla rappresentazione dei raggruppamenti in forma di grafo. L’utente può selezionare visivamente sottoinsiemi del grafo, che corrispondono a sottoargomenti dell’argomento principale. E’ possibile, a partire dai nodi selezionati, fruire delle clip televisive e degli articoli web aggregati, in un’unica interazione sinergica.