Hyper Media News - Centro Ricerche Rai

Transcript

Hyper Media News - Centro Ricerche Rai
Lo sviluppo delle nuove piattaforme comporta necessità di disporre in tempo reale di contenuti audiovisivi funzionali e gestibili nella quantità e nella loro
specificità. Di qui discendono il ruolo centrale della
direzione Teche e, quindi, la necessità di sistemi di
documentazione e indicizzazione sempre più snelli
ed economici. In questo contesto il Centro Ricerche
sta sperimentando tecnologie automatiche di analisi di segnali audiovisivi e testi, in collaborazione con
enti di ricerca nazionali ed esteri. Volendo riassumere in alcuni punti fondamentali il percorso di studio
effettuato in questo ambito, potremmo individuare i
seguenti elementi imprescindibili:
33 l’indicizzazione dei contenuti multimediali è generalmente essenziale al loro ritrovamento e alla
loro fruizione, indipendentemente dal modello di
distribuzione;
33 le modalità di fruizione basate sul web, grazie
all’interattività, impongono vincoli produttivi
estremamente più stringenti rispetto al passato;
33 la migrazione verso il dominio web implica la necessità di integrare l’informazione proveniente da
sorgenti eterogenee e indipendenti.
Questi tre punti cardinali costituiscono la mappa di
riferimento nella quale sono situati gli studi e i prototipi oggetto della presente scheda.
Automatic Newscast
Transcription System (ANTS)
In particolare, è stata realizzata una piattaforma,
denominata ANTS, mirata all’analisi automatica di
notiziari. Si tratta di un sistema modulare nel quale diversi strumenti di analisi del segnale audiovisivo vengono coordinati da un motore di gestione di
processo, che ha il compito di rendere sequenziali le
fasi di elaborazione e di aggregare i dati risultanti.
La tecnologia chiave impiegata è l’Automatic Speech
Recognition (ASR) in grado di fornire una trascrizione
testuale fedele di ciò che viene detto all’interno del
programma.
Il riconoscitore ASR impiegato è stato ottimizzato
per lavorare nel dominio delle news mediante addestramento su un consistente numero di telegiornali trascritti manualmente. La qualità di trascrizione
ottenuta si aggira attorno al 90% di riconoscimento
corretto. Poiché il testo è sincronizzato con il segnale
multimediale, data una parola è possibile accedere
immediatamente al brano in cui essa viene pronunciata. Inoltre il riconoscitore effettua una segmentazione del segnale in base all’impronta vocale di chi
parla.
Il trascritto che si ottiene si presta ottimamente alla
ricerca in testo libero e alla rielaborazione con tecniche di intelligenza artificiale.
La segmentazione in notizie
La segmentazione automatica in notizie viene effettuata da un modulo ideato e realizzato dal Centro Ricerche, basato sull’analisi del contenuto audiovisivo.
Il concetto di base utilizzato è semplice, ma richiede
una conoscenza a priori del formato del programma.
Nel caso dei telegiornali Rai, una notizia è generalmente annunciata dal conduttore in studio e quindi
approfondita con servizi esterni.
Riuscendo ad identificare le sequenze in cui compare il conduttore (o alternativamente lo studio) si
ottengono quindi dei punti di taglio coincidenti con
il cambio di notizia. L’identificazione di tali sequenze viene effettuata utilizzando un modulo che suddivide il video in scene dal contenuto omogeneo e,
quindi, le raggruppa per similitudine. Analizzando i
raggruppamenti ottenuti è, poi, possibile selezionare quelli che presentano le caratteristiche più simili a
quelle del modello prescelto.
Per rafforzare l’ipotesi effettuata si utilizza la segmentazione in voci effettuata dal modulo ASR, facendo l’ipotesi che la voce del conduttore in studio
sia quella che si presenta più spesso. In questo modo
vengono minimizzati gli errori di riconoscimento
del singolo strumento. L’identificazione corretta di
cambio notizie risultante ha una precisione media di
Centro Ricerche e Innovazione Tecnologica
www.crit.rai.it
09/10
Motivazioni della ricerca
circa l’80%. Effettuata la segmentazione in notizie, viene applicato
un modulo di analisi semantica.
Questo permette una classificazione automatica di un testo secondo
lo schema utilizzato dai documentatori Rai, basato su 28 categorie
principali relative al mondo giornalistico. La precisione ottenuta è
comparabile a quella di un classificatore umano.
I risultati dei processi delineati
sono pubblicati in maniera sinottica attraverso un interfaccia di
navigazione web, esemplificata in
figura.
Hyper Media News
Hyper Media News è un sistema in grado di integrare
le informazioni generate automaticamente da ANTS
con le informazioni presenti sul web e rese disponibili attraverso i siti di informazione quotidiana online. Il sistema Hyper Media News, assieme ad ANTS,
è già stato dimostrato con successo in diverse occasioni durante conferenze scientifiche internazionali
e durante il Prix Italia 2009.
Il principio di funzionamento di questo sistema si
basa su un’innovativa tecnologia per l’aggregazione
ibrida di oggetti, cioè il raggruppamento di oggetti
di tipologia differente quali sono gli articoli testuali
ritrovabili sui siti web di informazione e le unità elementari di informazione televisiva generate da ANTS.
La tecnologia sviluppata permette anche di selezionare gli elementi rappresentativi dei raggruppamenti trovati, così da permettere l’implementazione di
servizi di informazione innovativi, quali:
33 Servizi RSS (Really Simple Syndication) multimediali
33 Servizi Hot News e Topic Tracking
33 Navigazione visuale avanzata
I servizi RSS multimediali sono costituiti dalla pubblicazione di canali RSS (un canale RSS è una risorsa
web formattata secondo le specifiche RSS, un dialetto XML, che rappresenta liste di elementi in ordine
cronologico di pubblicazione) contenenti i raggruppamenti trovati dal sistema, organizzati in maniera
sequenziale nel tempo oppure indicizzati sulla base
delle preferenze degli utenti.
I servizi di Hot News sono costituiti dalla pubblicazione di rapporti giornalieri contenenti le notizie più
importanti della giornata, con collegamenti ai servizi RSS contenuti e annotati automaticamente con
parole chiave (tag). Il sistema mantiene
un archivio storico di questi rapporti, per
eventuale consultazione futura. Il portale
Hyper Media News è riportato in figura.
Il sistema offre agli utenti più avanzati
una modalità di navigazione visuale basata sulla rappresentazione dei raggruppamenti in forma di grafo. L’utente può
selezionare visivamente sottoinsiemi
del grafo, che corrispondono a sottoargomenti dell’argomento principale. E’
possibile, a partire dai nodi selezionati,
fruire delle clip televisive e degli articoli
web aggregati, in un’unica interazione
sinergica.