Agenda - Comlab

Transcript

Agenda - Comlab
MPEG
Comunicazioni multimediali 2006
M. Carli
P. Campisi
Agenda
¾
Introduzione
z
z
z
¾
Standard MPEG definiti
z
z
z
¾
MPEG 1
MPEG 2
MPEG 4
MPEG in via di definizione
z
z
¾
Contesto – inquadramento storico
Motivazioni
Regole di standardizzazione
MPEG 7
MPEG 21
Conclusioni
“Negli anni 80 la tecnologia raggiunge l’utente”
¾
Studi di Nyquist (1928)
CCITT ’60
raccomandazione per la digitalizzazione del
segnale telefonico
z
z
Frequenza di campionamento a 8 KHz
Quantizzazione
• µ-law 7 bits/sample
• A-law 8 bits/sample
¾
Multiplexers: 24 o 30 canali telefonici a 2048
Kbits/sec
Effetti pratici: NESSUNO
Collo di bottiglia: apparecchio utente
Evoluzione del contesto
¾
Prima meta’ anni 80
z
z
¾
CCITT H.120 => 1.5 Mbps videoconferenza a casa
Nasce il Compact DISC bitstream 1410 kbps
Seconda meta’ anni 80: inizia il processo di
standardizzazione (raccomandazioni)
z
z
z
z
H.261 videotelefonia, videoconferenza bitrate: p x 64 kbps
(pcanali telefonici)
H.263 video telefonia bit rate inferiore a 64 kbps (canale
telefonico numerico)
ISDN (Integrated Services Digital Network) 144 kbps
ADSL (Asymmetric Digital Subscriber Line) 1.5Mbps
Servizi multimediali su reti tlc
¾
Servizi innovativi
z
z
z
¾
Comunicazioni personali (videoconferenza, videotelefonia)
Accesso a basi di dati di immagini e video
Servizi diffusivi (Web TV, Streaming di dati video)
Trasmissioni di servizi video su canali radiomobili
z
Reti wireless di nuova generazione
• evoluzioni del GSM: GPRS, EDGE (>64 kbit/s)
kbit/s)
• sistemi di terza generazione: UMTS (144 kbit/s,
kbit/s, 384 kbit/s,
kbit/s, 2
Mbit/s)
/s)
Mbit
¾
Servizi multimediali su reti a commutazione di
pacchetto
z
Comunicazioni client-server su protocolli RTP/UDP/IP
Standard attuali
¾ Meccanismo di generazione del bitstream:
riduzione della ridondanza temporale
z
¾
Algoritmi di Block Matching
seguita da una riduzione della ridondanza
spaziale
Riduzione ridondanza temporale
Sequenza
Sequenza originale
originale
Frame
Frame 11 originale
originale
Frame
Frame 22 originale
originale
Stima
Stima del
del campo
campo di
di moto
moto
Frame
Frame 22 ricostruito
ricostruito
Differenza
Differenza in
in valore
valore assoluto
assoluto
Stima del campo di moto
Regolarizzazione
Applicazione
Sequenza
Sequenza originale
originale
Frame
Frame 22
Frame
Frame 11
Stima
Stima ML
ML
Errore
Errore di
di
ricostruzione
ricostruzione iniziale
iniziale
Regolarizzazione
Regolarizzazione
Errore
Errore di
di
ricostruzione
ricostruzione finale
finale
Riduzione ridondanza spaziale
Matrici di
quantizzazione
RGB -> YUV
Y, U, V
DCT 8x8
Quantizzazione
Inserimento
nel bitstream
Codifica
entropica
Moving Pictures Expert Group
¾
Attività del gruppo iniziata nel 1988.
z
Patrocinio di:
• International Organization for Standardization (ISO),
• International Electrotechnical Commission (IEC).
¾
Standard di codifica prodotti:
z
z
z
z
MPEG-1 (Luglio 1988-Novembre 1992),
MPEG-2 (Luglio 1990-Novembre 1994),
MPEG-4 (Luglio 1993-Novembre 1998),
MPEG-7 (Ottobre 1998- Novembre 2001).
MPEG: cosa fa ?
¾
MPEG-1
z
¾
Codifica Audio video; media qualità ≈1,5 Mb/s, per
supporto fisico.
MPEG-2
z
Codifica Audio video; media ÷ altissima qualità per
canale trasmissivo / supporto fisico ≈ 4-15 Mb/s;
Multiplex di programmi,comandi, dati.
MPEG: cosa fa ?
¾
MPEG-4
z
¾
Codifica di oggetti Audio video, naturali - sintetici, 2D3D, animazioni, indipendente dal BitRate e dalla
qualità,
supporto di interattività avanzata ed accesso
all’informazione, completa indipendanza dal trasporto
e dall’applicazione.
MPEG-7
z
Interfacce descrittive del contenuto dell’informazione
multimediale.
Processo di standardizzazione per MPEG-1/2/4
¾
Requirements,
¾
Competitive phase,
¾
Selection of basic methods,
¾
Collaborative phase,
¾
Working draft and draft international standard,
¾
Validation,
¾
International standard.
MPEG 1
Codifica di audio e sequenze video per
media digitali fino a 1.5 Mbps
Standard in cinque parti:
1.
2.
3.
4.
5.
Come accorpare diversi canali audio e video
Codifica Video
Codifica Audio
Procedure per la verifica del co-decodificatore
prodotto
Implementazione C di un co/decoder
MPEG-1: caratteristiche (1)
¾ Formato d’immagine SIF rapporto 4:3,
risoluzione 352x288 oppure 352x240,non
interallacciato.
¾ Decodificatori di struttura semplice.
¾ Codificatori di complessità variabile
con
influenza sul rapporto bit/rate — qualità.
¾ Orientato ad applicazioni
di memorizzazione
su supporto fisico es., CD-ROM.
MPEG-1: caratteristiche (2)
¾ Utilizza in gran parte tecniche già definite
nella Racc. H.261
¾ Introduce la codifica con predizione
bidirezionale (quadri B)
¾ Supporta funzionalità VCR (Fast search,
Reverse, etc.)
¾ Qualità paragonabile
a VCR con bit-rate di
circa 1,5 Mbit/sec
MPEG 2 - 1994
“Codifica generica di sequenze video e dell’audio associato”
1.
Due tipi di multiplexing
MPEG 2 Applicazioni
¾
¾
¾
¾
¾
¾
¾
CTV: distribuzione tv via cavo
STV: trasmissione tv via satellite
TTV: trasmissione tv via terrestre (ponti radio)
ISM: mezzi di memorizzazione interattiva
(dischi ottici o magnetici)
SSM: mezzi di memorizzazione seriale
(videoregistratori digitali)
ENG: raccolta di notizie elettroniche
NDB: servizi di database in rete (via ATM)
IPC: comunicazioni interpersonali
RVS: video controllo a distanza
MPEG-2: caratteristiche (1)
¾ Formati d’immagine molteplici varie
risoluzioni, rapporti 4:3 e 16:9, strutture
interallacciate e non.
¾ Decodificatori: MPEG-2 = MPEG-1 + tool
per interallacciato.
¾ Qualità variabile dal VCR al cinema
numerico.
MPEG-2: caratteristiche (2)
¾
Quantizzazione con range più elevato e adattata
al blocco
¾
Nuove tavole VLC (variable length codes)
¾
Estensioni per scalabilità: Spaziale, SNR,
Temporale
¾
Codifica Audio estesa per suono multi-canale
MPEG-1 e MPEG-2: principio di
codifica
¾
Riduzione della “ridondanza” prima della
trasmissione.
¾
Compressione spaziale:
z
¾
riduzione della ridondanza dell’informazione lungo le
dimensioni spaziali dell’immagine.
(valori numerici simili che si ripetono in intorni limitati
dell’immagine).
Compressione temporale:
z
riduzione della ridondanza dell’informazione nel tempo
(valori numerici simili che si ripetono nel tempo anche se
in posizioni spaziali differenti).
MPEG-1 e MPEG-2: caratteristiche
comuni
¾
Lo standard specifica:
z
z
¾
Lo standard non specifica:
z
¾
la sintassi e la semantica del bit stream,
il processo di decodifica.
il processo di codifica.
Applicazioni di tipo “asimmetrico” (video CD, video
on demand, etc.):
z
codifica effettuata una sola volta,
• complessità del codificatore non rilevante.
z
decodifica effettuata molte volte,
• necessità di decodificatori poco costosi.
MPEG 4
Esempio di codifica ad oggetti
Sequenza Bream
Codifica frame-based a 128 kbit/s
Codifica background
a 28 kbit/s
Codifica foreground 1 Codifica foreground 2
a 90 kbit/s
a 10 kbit/s
MPEG-4: perché ?
Costante diffusione delle applicazioni multimediali
necessità di uno standard con appropriate
funzionalità per:
• accedere,
• manipolare i contenuti.
z
Campi di applicazione:
• Servizi multimediali interattivi:
z
z
z
Comunicazioni personali (videoconferenza, videotelefonia)
Accesso a basi di dati di immagini e video
Servizi diffusivi (Web TV, Video on demand)
demand)
MPEG-4: obiettivi
¾ Codifiche audio-video a basso bit-rate.
¾ Rappresentazione basata sul contenuto in
opposizione alla rappresentazione basata
sul frame o sul pixel.
z
z
Tecniche di codifica innovative ad “oggetti”.
Codifiche “content-based” e/o “model-based”.
¾ Nuovo tipo di interattività di utente basata
sul contenuto e sulla semantica del video.
MPEG-4: funzionalità (1)
Interattività basata sul contenuto:
z
z
z
z
accesso ai dati multimediali basata sul contenuto,
manipolazione ed editing del bitstream,
accesso random (nel tempo & agli oggetti),
codifica ibrida di dati naturali e sintetici.
Applicazioni:
z
z
z
recupero dati da librerie on-line,
home shopping interattivo,
produzione ed editing di film.
MPEG-4: funzionalità (2)
Compressione:
miglioramento dell’efficienza di codifica,
codifica di più flussi dati concorrenti.
z
z
Applicazioni:
Memorizzazione e/o trasmissione efficiente di
dati audio-video.
z
• Miglioramento del browsing su Internet.
• Realtà virtuale.
MPEG-4: funzionalità (3)
Accesso avanzato all’informazione:
z
scalabilità basata sul contenuto (oggetti audio/visuali).
• Possibilità di avere differenti qualità in termini di risoluzione
spaziale e temporale.
z
adattamento ad ambienti error-prone.
Applicazioni:
z
z
z
comunicazioni wireless,
browsing di database,
accesso a differenti livelli di contenuto, scala,
risoluzione e qualità.
MPEG-4: la scena (1)
¾
¾
La scena Visuale è composta da Video-Objects VO.
Proprietà dei VO:
z
forma, movimento, tessitura.
MPEG-4: la scena (2)
¾
L’utente può:
z
z
accedere agli oggetti della scena,
manipolarli.
Oggetti audio-visuali (1)
¾
La scena Audio-Visuale è composta da Oggetti
(AVO).
¾
Processo di formazione e/o estrazione di un VO:
z
VO è un insieme di frame rettangolari in MPEG-1/2,
z
VO rappresenta un oggetto che evolve nel tempo,
z
VO rappresenta un oggetto estratto da una scena
tramite segmentazione (automatica, semi-automatica,
supervisionata).
Oggetti audio-visuali (2)
¾ MPEG-4 non definisce come
formare/estrarre un VO.
¾ MPEG-4 definisce il modello di
rappresentazione del VO.
Esempio di VO
Sfondo
Soggetto
Audio
Video
Schema di codifica video MPEG-4
VO 0
VO 1
VO = Video Object
VO 2
Segmentazione
Sequenza
originale
Codificatore
VO 0
Codificatore
VO 1
Codificatore
VO 2
MUX
Sequenza
codificata
Segmentazione spazio-temporale del contenuto dei quadri
della video sequenza in VO.
¾ Flessibilità di codifica dei diversi oggetti:
¾
z
z
z
diversi bit-rate,
diversi frame rate,
diversa priorità nella protezione.
Schema di de-codifica video
MPEG-4
Video: struttura dei dati (1)
¾ VideoSession (VS):
z
z
ingloba le altre tre classi,
una video sequenza può essere costituita da
più VS.
¾ VideoObject (VO):
z
z
classe che definisce specifici oggetti nella
scena,
consente di ottenere scalabilità relativa agli
oggetti.
Video: struttura dei dati (2)
¾
VideoObject Layer (VOL):
z
consente di migliorare
• risoluzione spaziale di un VO
• risoluzione temporale di un VO.
z
¾
consente di ottenere scalabilità spaziale e temporale di VO.
VideoObject Plane (VOP):
z
occorrenza di un VO ad un dato istante.
Video: struttura dei dati (3)
La sintassi del bitstream video
MPEG-4
Visual Object Sequence
Visual Object 1
Video Object Layer
Visual Object n
Video Object 1
VOL 1
Group of VOP (GOV)
VOL m
VOL header
VOL_start_code
GOVheader VOP 1
Motion_marker
GOVheader
GOV_start_code
GOV_start_code
VOP header Prima part. Seconda part.
VOP_start_code
VOP n
Prima part.
Seconda part.
Pacchetto video
Resync_marker
Schema di codifica di un VOP
Informazioni di forma
Codifica della
forma
Informazioni di movimento
Stima del
movimento
Motocompensazione
M
U
X
Bitstream
video
Codifica della
tessitura
Informazioni di
tessitura
VOP precedente
DCT
Quantizzazione
Scan dei
coefficienti
Predizione
AC & DC
VLC
informazioni
di tessitura
Codifica di un VOP
¾
Codifica di forma: novità rispetto agli standard
precedenti.
¾
Codifica di tessitura,
stima di movimento,
motocompensazione
¾
¾
uguali rispetto agli standard precedenti
Codifica di forma (1)
¾
Informazione di forma binaria:
z
z
z
¾
definisce quale porzione del supporto dell’oggetto
appartiene al VO ad un dato istante,
rappresentata come una matrice avente la stessa
dimensione di quella della matrice di contenimento
di un VOP,
ogni elemento della matrice può assumere due soli
valori.
Informazione di forma a livelli di grigio:
z
z
struttura simile a quella “binaria”,
ogni elemento della matrice assume valori compresi in
[0,255].
Codifica di forma (2)
¾
¾
Dimensione regione di bordo pari a multipli di 16x16.
Regione di bordo partizionata in blocchi 16x16.
Codifica di forma binaria
¾ Co-decodifica effettuata blocco per blocco.
¾ Per ogni singolo blocco:
z
z
la codifica è effettuata individuando i pixels
che cambiano colore [0->255], [255->0],
se tutti i pixels dello stesso blocco sono dello
stesso colore la codifica non è effettuata.
¾ Risultato dell’algoritmo è la codifica della
posizione dei pixels che cambiano.
Codifica di forma a livelli di grigio
¾
Informazione relativa al supporto:
z
¾
codificata nello stesso modo delle forme binarie.
Informazione relativa alla luminanza:
z
codificata come macroblocchi (16x16) di luminanza con
la stessa tecnica di codifica delle tessiture del VOP.
Stima di movimento
¾ Scopo:
z
riduzione della ridondanza temporale.
¾ Principio:
z
z
simile a quello utilizzato in MPEG-1/2.
Predizione Interframe,
• genesi dei quadri P.
z
Predizione bi-direzionale,
• genesi dei quadri B.
Stima di movimento: predizione
interframe
¾
Ricerca del macroblocco nel frame successivo tramite
“block matching”.
¾
Codifica del vettore di spostamento tra il macroblocco
nel frame n-1 ed lo stesso macroblocco nel frame n.
Stima di movimento: predizione bidirezionale
¾ Predizione dal quadro precedente e
successivo.
Stima di movimento in MPEG-4
¾ Stima di movimento effettuata in MPEG-
1/2 estesa per rappresentare oggetti di
forma arbitraria (VOP).
¾ Ogni VOP è diviso in macroblocchi.
¾ Ogni VOP codificato come:
I-VOP (codificato indip.),
P-VOP (predizione da un VOP prec.),
B VOP (predizione
bi direzionale)
( di i
di i
l )
Codifica scalabile
¾
Bit-stream scalabile:
z
porzione di esso fornisce una rappresentazione a risoluzione e/o
qualità “proporzionale” al bit-stream utilizzato.
¾
La scalabilità coinvolge più di un Video Object Layer.
¾
Scalabilità spaziale:
z
¾
l “enhancement layer” consente di migliorare la risoluzione spaziale
del “base layer”.
Scalabilità temporale:
z
l “enhancement layer” consente di migliorare la risoluzione
temporale del “base layer”.
Co-decodificatore scalabile a due
livelli (1)
Co-decodificatore scalabile a due
livelli (2)
¾
Ingressi al pre-processor: VOP.
¾
Scalabilità spaziale.
z
“Pre-processor” separa il VOP in:
• “base layer” (VOP a più bassa risoluzione)
• “enhancement layer” (VOP a più alta risoluzione).
¾
Scalabilità temporale.
z
La risoluzione temporale dell’oggetto selezionato è
migliorato in modo tale da avere un movimento più
“fluido” del resto dell’area.
MPEG-7
MPEG-7
¾
MPEG-7-cos’è:
z
¾
MPEG-7-obiettivi:
z
¾
descrizione (associata al contenuto) standardizzata
di vari tipi di materiale multimediale.
ricerca veloce ed efficiente di materiale multimediale.
MPEG-7-caratteristiche:
z
z
definisce un insieme standard di descrittori (associati
al contenuto) che possono essere usati per
descrivere vari tipi di informazione multimediale,
standardizza un linguaggio “Description Definition
Language” (DLL) per specificare gli schemi di
descrizione .
MPEG-7: schema di utilizzo
feature extraction
standard description
scope of MPEG-7
¾ Estrazione di descrittori:
z
z
automatica o semi automatica,
non definita dallo standard.
¾ Motore di ricerca:
z
non definito dallo standard.
search engine
MPEG-7: terminologia (1)
¾
Descriptor (D):
z
associa un “descriptor” ad una caratteristica
• Es: colore Æ caratteristica,
istogramma per rappresentare il colore Æ descriptor
¾
Description scheme (DS):
z
¾
definisce la struttura e la semantica dei descrittori.
Description Definition Language:
z
consente di definire i DS (“Description schemes”).
MPEG-7: terminologia (2)
DDL
DS
DS
D
DS
D
D
D
D
defin ed in stan dard
n ot in standard;
defin ed usin g D D L
MPEG-7: ruolo di “D” e “DS”
MPEG-7
Description Definition
Language (DDL)
MPEG-7
Description Schemes
Description
Generation
Descriptors
Bitstream Syntax
¾ “DLL” è utilizzato per generare “DS” e “D”.
¾ Solo i “DS” sono utilizzati per generare la
descrizione.
MPEG-7: schema di utilizzo
D, DS
Search/
Query
Engine
Description
Generation
MPEG-7
Description
Encoder
Coded MPEG-7
Description
User
Decoder
Filter
Agents
MM
Content