ANÁLISIS Y EVALUACIÓN DE LAS TÉNICAS UTILIZADAS PARA LA...

97
Escuela Técnica Superior de Ingeniería Universidad de Sevilla ANÁLISIS Y EVALUACIÓN DE LAS TÉCNICAS UTILIZADAS PARA LA TRANSMISIÓN DE VÍDEO EN 3D Proyecto Fin de Carrera Autor: Víctor José Venegas Lumpié Tutor: José Ramón Cerquides Bueno Departamento: Tª Señal y Comunicaciones Ingeniería de Telecomunicación Sevilla, Marzo de 2014

Transcript of ANÁLISIS Y EVALUACIÓN DE LAS TÉNICAS UTILIZADAS PARA LA...

Escuela Técnica Superior de Ingeniería

Universidad de Sevilla

ANÁLISIS Y EVALUACIÓN DE

LAS TÉCNICAS UTILIZADAS

PARA LA TRANSMISIÓN DE

VÍDEO EN 3D

Proyecto Fin de Carrera

Autor: Víctor José Venegas Lumpié

Tutor: José Ramón Cerquides Bueno

Departamento: Tª Señal y Comunicaciones

Ingeniería de Telecomunicación

Sevilla, Marzo de 2014

DEDICATORIA

A mi familia por confiar siempre en mí.

Y en especial a mis padres y mi hermana

por su gran apoyo en todo momento.

Índice

Índice ............................................................................................................................................. 3

Índice de Figuras ........................................................................................................................... 5

Índice de Tablas ............................................................................................................................. 7

1 Introducción .......................................................................................................................... 8

1.1 CONTEXTO ..................................................................................................................... 8

1.2 OBJETIVO ....................................................................................................................... 8

2 Conceptos básicos ............................................................................................................... 10

2.1 VISIÓN 3D .................................................................................................................... 10

2.1.1 PRINCIPIOS FÍSICOS DE LA VISIÓN 3D ................................................................. 10

2.2 TECNOLOGÍAS PARA LA VISUALIZACIÓN DE IMÁGENES ESTEREOSCÓPICAS .............. 12

2.2.1 AIDED-VIEWING ................................................................................................... 12

2.2.2 FREE-VIEWING ..................................................................................................... 15

2.3 ADQUISICIÓN / GENERACIÓN DE CONTENIDOS 3D .................................................... 17

2.3.1 ADQUISICIÓN A TRAVÉS DE 2 LENTES (CÁMARA ESTEREOSCÓPICA) .................. 18

2.3.2 ADQUISICIÓN A TRAVÉS DE MÚLTIPLES CÁMARAS (SISTEMA MULTIVISTA) ...... 18

2.3.3 ADQUISICIÓN A TRAVÉS CÁMARA 2D + Z-CAM (TOF) ......................................... 19

2.3.4 ADQUISICIÓN A TRAVÉS CÁMARA 2D (Conversión 2D-3D) ................................. 19

2.4 FORMATOS DE VÍDEO PARA 3D .................................................................................. 19

2.4.1 FORMATO ANÁGLIFO CROMÁTICO OPTIMIZADO (OCA) .................................... 19

2.4.2 PROCESAMIENTO INDEPENDIENTE DE LAS SEÑALES DE VÍDEO (CSV) ................ 20

2.4.3 FORMATO COMPATIBLE CON EL CUADRO HD (CFC)........................................... 21

2.4.4 FORMATO VÍDEO + PROFUNDIDAD (V+D) .......................................................... 24

2.4.5 FORMATO MULTI-VIEW VIDEO CODING (MVC) .................................................. 26

2.4.6 FORMATO MVD (MVC+D) ................................................................................... 26

2.4.7 FORMATO LAYERED DEPTH VIDEO (LDV) ............................................................ 27

2.4.8 FORMATO DEPTH ENHANCED VIDEO (DES) ........................................................ 27

2.4.9 RESUMEN DE FORMATOS ................................................................................... 28

2.5 CODIFICACIÓN Y COMPRESIÓN DE LAS SEÑALES DE VÍDEO ESTEREOSCÓPICO.......... 28

2.5.1 CODIFICACIÓN ESTEREOSCÓPICA ........................................................................ 29

2.5.2 CODIFICACIÓN PARA EL FORMATO V+D ............................................................. 32

2.5.3 CODIFICACIÓN PARA EL FORMATO MVC ............................................................ 34

2.5.4 CODIFICACIÓN PARA EL FORMATO MVD ............................................................ 36

2.5.5 CODIFICACIÓN PARA EL FORMATO LDV .............................................................. 38

2.5.6 CODIFICACIÓN PARA EL FORMATO DES .............................................................. 38

2.5.7 CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H.265 ........................... 38

3 Metodología ........................................................................................................................ 42

3.1 ESTUDIO DE LAS TASAS DE BITS .................................................................................. 42

3.1.1 PARÁMETROS DEL ESTUDIO ................................................................................ 42

3.2 TASA DE BITS PARA OCA ............................................................................................. 53

3.3 TASA DE BITS PARA CSV .............................................................................................. 55

3.4 TASA DE BITS PARA CFC+............................................................................................. 55

3.5 TASA DE BITS PARA V+D .............................................................................................. 56

3.5.1 TASA DE BITS PARA MPEG-C PARTE 3 ................................................................. 56

3.5.2 TASA DE BITS PARA VÍDEO AUXILIAR - H.264 ...................................................... 57

3.6 TASA DE BITS PARA MVC ............................................................................................. 59

3.7 TASA DE BITS PARA MVD ............................................................................................ 61

3.8 TASA DE BITS PARA LDV .............................................................................................. 62

3.9 TASA DE BITS PARA DES .............................................................................................. 63

4 Análisis de transmisión ........................................................................................................ 64

4.1 TRANSMISIÓN DE LAS SEÑALES DE 3DTV EN EL ESTÁNDAR DVB-T ............................ 64

4.1.1 CARACTERÍSTICAS TÉCNICAS DE LA RED TDT EN ESPAÑA ................................... 64

4.1.2 COMPARACIÓN DE LOS ESTÁNDARES DVB-T /DVB-T2 ....................................... 65

4.1.3 EL ESTÁNDAR DVB 3D TV .................................................................................... 66

4.1.4 GENERACIÓN DEL TRANSPORT STREAM Y MULTIPLEXACIÓN ............................ 69

4.1.5 CODIFICACIÓN MODULACIÓN Y TRANSMISIÓN DE LA SEÑAL DE TV-3D ............ 73

4.2 TRANSMISIÓN DE LAS SEÑALES 3DTV SOBRE IPTV ..................................................... 76

4.2.1 CONCEPTOS SOBRE IPTV ..................................................................................... 76

4.2.2 TÉCNICAS DE TRANSMISIÓN EN SISTEMAS IPTV ................................................. 78

4.3 RESULTADOS DE LAS PRUEBAS DE TRANSMISIÓN ...................................................... 81

4.3.1 TRANSMISIÓN DE 3DTV EN EL ESTÁNDAR DVB-T ............................................... 82

4.3.2 TRANSMISIÓN DE 3DTV SOBRE IPTV .................................................................. 86

5 Conclusiones y líneas de desarrollo .................................................................................... 90

5.1 CONCLUSIONES ........................................................................................................... 90

5.2 LÍNEAS DE DESARROLLO .............................................................................................. 92

Referencias Bibliográficas ........................................................................................................... 93

Glosario de Términos .................................................................................................................. 96

Índice de Figuras

Figura 2.1 Creación de sensación de profundidad ...................................................................... 10

Figura 2.2 Imagen estereoscópica ............................................................................................... 11

Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y

verde) y el usuario debe llevar incorporadas unas gafas con los respectivos filtros de colores

para obtener la visualización en 3D. ........................................................................................... 13

Figura 2.4 Lente con polarización horizontal solo permite el paso de las ondas con polarización

vertical ......................................................................................................................................... 14

Figura 2.5 Las lentes polarizadas permiten que solo una de las imágenes llegue a cada ojo .... 14

Figura 2.6 Funcionamiento de los lentes "shutter" .................................................................... 15

Figura 2.7 Tecnología de barrera de parallax .............................................................................. 16

Figura 2.8 Funcionamiento monitor lenticular ........................................................................... 17

Figura 2.9 Cadena de transmisión del vídeo estéreo .................................................................. 17

Figura 2.10 Adquisición mediante 2 lentes con configuración en paralelo ................................ 18

Figura 2.11 Empaquetamiento de cuadro para formato progresivo .......................................... 22

Figura 2.12 Side by Side (SbS) ..................................................................................................... 22

Figura 2.13 Top and Bottom (TaB) .............................................................................................. 23

Figura 2.14 Configuración Tablero de ajedrez ............................................................................ 23

Figura 2.15 Configuración de Campos alternados ...................................................................... 24

Figura 2.16 Imagen con su mapa de profundidad asociado ....................................................... 24

Figura 2.17 Formato MVC + Profundidad ................................................................................... 26

Figura 2.18 Formato LDV ............................................................................................................. 27

Figura 2.19 Estructura típica de transmisión de H.264 ............................................................... 30

Figura 2.20 Codificación para OCA .............................................................................................. 30

Figura 2.21 Aplicación de H.264 en Dual-Streaming ................................................................... 31

Figura 2.22 Aplicación de H.264 en Simulcast ............................................................................ 31

Figura 2.23 Aplicación de H.264 en CFC+ .................................................................................... 32

Figura 2.24 Cadena de Transmisión para MPEG-C parte 3 ......................................................... 33

Figura 2.25 Aplicación del codificador H.264 a las señales de imágenes auxiliares ................... 34

Figura 2.26 Predicción Multivista para n=5 y GOP=8 (IPP) ......................................................... 35

Figura 2.27 Estructura de predicción espacio temporal para MVC (HBP) .................................. 36

Figura 2.28 Cadena de transmisión en MVD ............................................................................... 37

Figura 2.29 Modo de predicción de imágenes para MVD ........................................................... 37

Figura 2.30 Compresión de tasa de bits esperada en el momento de la estandarización ......... 39

Figura 2.31 Modos/macrobloque ............................................................................................... 40

Figura 3.1 Diagrama de bloques de la codificación H.264 .......................................................... 45

Figura 3.2 Procesos de CABAC .................................................................................................... 48

Figura 3.3 Tasa de bits en SD ....................................................................................................... 49

Figura 3.4 Comparación de resoluciones estándar de vídeo ...................................................... 51

Figura 3.5 Valores PSNR de la comparación entre dos imágenes ............................................... 52

Figura 3.6 Fotogramas vídeo formato cromático anaglífico ....................................................... 53

Figura 3.7 Tasa de bits para un vídeo OCA de resolución SD ...................................................... 53

Figura 3.8 Tasa de bits para un vídeo OCA de resolución HD-TDT .............................................. 54

Figura 3.9 Tasa de bits para un vídeo OCA de resolución 720p .................................................. 54

Figura 3.10 Tasa de bits para un vídeo OCA de resolución 1080i ............................................... 55

Figura 3.11 Fotograma de vídeo en configuración SbS ............................................................... 55

Figura 3.12 Tasa de bits en 720p ................................................................................................. 56

Figura 3.13 Tasa de bits en 1080i ................................................................................................ 56

Figura 3.14 Tasa de bits al codificar el mapa de profundidad .................................................... 57

Figura 3.15 Vista izquierda y su correspondiente mapa de profundidad ................................... 58

Figura 3.16 Tasa de bits al codificar el mapa de profundidad .................................................... 58

Figura 3.17 Vista izquierda y derecha de una imagen estéreo ................................................... 59

Figura 3.18 Tasa de bits al codificar con MVC y n=2 ................................................................... 59

Figura 3.19 Imagen grabada con 8 cámaras espaciadas 20cm entre ellas ................................. 60

Figura 3.20 Tasa de bits al codificar con MVC y n=8 ................................................................... 61

Figura 3.21 Fotograma de la vista izquierda con su correspondiente mapa de profundidad .... 62

Figura 3.22 Tasa de bis al codificar con MVD .............................................................................. 62

Figura 3.23 Vistas izquierda y derecha con sus mapas de profundidad asociados..................... 63

Figura 3.24 Tasa de bits al codificar con LDV .............................................................................. 63

Figura 4.1 Arquitectura de transmisión genérica para señales de vídeo 3D .............................. 64

Figura 4.2 Características técnicas de la red TDT en varios países europeos ............................. 65

Figura 4.3 Canal DVB–T2 Con diversas modulaciones adaptadas al tipo de servicio ................. 66

Figura 4.4 Estándar DVB 3D TV. La parte gris muestra los aspectos tecnológicos afectados ..... 67

Figura 4.5 La disparidad permite identificar la distancia a la que se encuentra cada región sobre

la que se dibujan subtítulos. ....................................................................................................... 68

Figura 4.6 Generación del Transport-Stream .............................................................................. 69

Figura 4.7 Multiplexación de vistas en dual Streaming .............................................................. 72

Figura 4.8 Multiplexación de vistas izquierda + profundidad ..................................................... 72

Figura 4.9 Multiplexación de canales 2D y 3D con un solo Multiplexor ..................................... 73

Figura 4.10 Multiplexación de canales 2D y 3D con varios Multiplexores .................................. 73

Figura 4.11 Arquitectura general de la red IPTV ......................................................................... 78

Figura 4.12 Transmisión unicast .................................................................................................. 79

Figura 4.13 Transmisión multicast .............................................................................................. 80

Figura 4.14 Fotograma del vídeo en configuración SbS .............................................................. 81

Figura 4.15 Fotograma del vídeo en configuración TaB .............................................................. 81

Figura 4.16 Tipos de BER ............................................................................................................. 83

Figura 4.17 Ancho de banda en Unicast para configuración TaB y resolución 720p .................. 86

Figura 4.18 Ancho de banda en Unicast para configuración TaB y resolución 1080i ................. 87

Figura 4.19 Ancho de banda en Unicast para configuración SbS y resolución 720p .................. 87

Figura 4.20 Ancho de banda en Unicast para configuración SbS y resolución 1080i ................. 87

Figura 4.21 Ancho de banda en Multicast para configuración TaB y resolución 720p ............... 88

Figura 4.22 Ancho de banda en Multicast para configuración TaB y resolución 1080i .............. 88

Figura 4.23 Ancho de banda en Multicast para configuración SbS y resolución 720p ............... 88

Figura 4.24 Ancho de banda en Multicast para configuración SbS y resolución 1080i .............. 89

Índice de Tablas

Tabla 3.1 Factor Q ....................................................................................................................... 50

Tabla 4.1 Estándar DVB - Características Técnicas ...................................................................... 66

Tabla 4.2 Número de portadoras ................................................................................................ 74

Tabla 4.3 Intervalos de guarda .................................................................................................... 74

Tabla 4.4 Tasas de transmisión en DVB-T (en Mbps) .................................................................. 74

Tabla 4.5 Tasas de transmisión en DVB-T para los formatos de 3DTV ....................................... 75

Tabla 4.6 Anchos de banda referenciales requeridos para IPTV ................................................ 77

Tabla 4.7 Parámetros DVB-T utilizados para las pruebas de transmisión ................................... 82

Tabla 4.8 Valores para la correcta recepción .............................................................................. 83

Tabla 4.9 Resultados de las medidas de calidad de de la señal COFDM con la configuración TaB

..................................................................................................................................................... 83

Tabla 4.10 Resultados de las medidas de calidad de de la señal COFDM con la configuración

SbS ............................................................................................................................................... 84

Tabla 4.11 TS transmitidos y recibidos en la configuración TaB ................................................. 85

Tabla 4.12 TS transmitidos y recibidos en la configuración SbS con resolución 720p ................ 85

Tabla 4.13 TS transmitidos y recibidos en la configuración SbS con resolución 1080i y 1080p . 86

8

1 Introducción

El presente proyecto ha sido desarrollado en el Departamento de Teoría de la Señal y

Comunicaciones de la Escuela Técnica Superior de Ingeniería de la Universidad de Sevilla.

Este proyecto se enmarca dentro del estudio de tecnologías 3D para su aplicación en diversos

ámbitos.

1.1 CONTEXTO

Se ha producido recientemente un fuerte incremento en la producción de contenidos

audiovisuales 3D para cine y televisión, en forma de películas y grabación/retransmisión de

eventos en formato estéreo (pares de imágenes).

Cabe señalar que las películas 3D y las pruebas de televisión en 3D (3DTV) tienen una larga

historia. Sin embargo, la tecnología finalmente ha progresado lo suficiente en esta coyuntura,

por ejemplo, con el despliegue de la televisión digital (DTV) y la Televisión de Alta Definición

(HDTV). Por ello las marcas comerciales más importantes relacionadas con el sector

audiovisual, finalmente, se han introducido en el desarrollo de esta tecnología.

Comenzaremos por señalar que hay dos tipos de tecnología comercial para la visualización de

contenidos en 3D:

1) Las pantallas estereoscópicas1, que requieren gafas especiales para ver los

contenidos en 3D.

2) Las pantallas autoestereoscópicas, que muestran las imágenes en 3D de tal

manera que el usuario puede disfrutar de la experiencia de visualización sin

ningún tipo de accesorio especial.

1.2 OBJETIVO

El objeto de este documento es mostrar el proceso realizado para analizar y evaluar las

técnicas que existen actualmente para la transmisión de vídeo en 3D para diferentes

dispositivos de visionado.

En primer lugar se explicarán una serie de conceptos necesarios para entender los

fundamentos de la tecnología de vídeo en tres dimensiones. También se comentará la

evolución de los diferentes estándares de compresión de vídeo 3D, para posteriormente dar

una visión general del tratamiento digital de vídeo 3D y las partes en que se compone.

Profundizando en el objetivo del proyecto, se realizará un proceso de compresión del vídeo 3D

con diferentes códecs y formatos para poder analizarlos individualmente y mediante unos

criterios de calidad de imagen realizar una comparación entre ellos.

Posteriormente, se realizará la elección de los códecs y formatos más adecuados con respecto

a unos criterios de calidad de imagen definidos.

1 Estereoscopía: término asociado a la visualización de una imagen en tres dimensiones.

9

Para finalizar usaremos los códecs y formatos escogidos para realizar la transmisión de vídeo

3D mediante radiodifusión (TDT) y mediante streaming, analizando la calidad de la imagen en

diferentes dispositivos de visionado de vídeo 3D.

10

2 Conceptos básicos

En el siguiente capítulo se realiza un estudio del arte de las diferentes tecnologías involucradas

en un sistema de vídeo 3D. Primeramente para entender el concepto de visión 3D se introduce

al lector en el concepto de visión estereoscópica y se explica brevemente la historia de la

visión estereoscópica hasta la actualidad.

Una vez definidos los conceptos básicos, se mostrarán las diferentes tecnologías que existen

para la representación de contenidos estereoscópicos tanto sistemas que actualmente están

en fase de investigación como sistemas comerciales. Seguidamente se explicarán las diferentes

formas que existen en la actualidad de generar contenidos 3D explicando la problemática y

beneficios de cada uno.

Entre la generación y la representación, típicamente, se utilizan codificadores que

proporcionan la información del transmisor al receptor con el número mínimo de bits y sin que

el espectador pueda observar que se ha realizado dicho proceso. En este caso se explicarán las

diferentes soluciones existentes para la codificación de contenidos 3D.

2.1 VISIÓN 3D

Antes de profundizar en la explicación del desarrollo de las técnicas utilizadas para analizar los

diferentes formatos de codificación 3D, se hace necesario explicar en qué principios físicos se

basa la visión 3D.

2.1.1 PRINCIPIOS FÍSICOS DE LA VISIÓN 3D

El sistema visual humano es un sistema binocular, disponemos de dos ojos en los que, debido a

su separación horizontal, se reciben dos imágenes, de una misma escena, con puntos de vista

diferentes. Mediante estas dos “vistas” el cerebro crea una sensación espacial. A este tipo de

visión se le denomina visión estereoscópica y al proceso en si mismo estereopsis.

Figura 2.1 Creación de sensación de profundidad

En la estereopsis intervienen diversos mecanismos. Cuando observamos objetos muy lejanos,

los ejes ópticos de nuestros ojos son paralelos. Cuando observamos un objeto cercano,

nuestros ojos giran para que los ejes ópticos estén alineados sobre él, es decir, convergen. A su

11

vez se produce la acomodación o enfoque para ver nítidamente el objeto. Este proceso

conjunto se denomina fusión. No todo el mundo tiene la misma capacidad de fusionar un par

de imágenes en una sola tridimensional. Alrededor de un 5% de la población tiene problemas

de fusión2. La agudeza estereoscópica es la capacidad de discernir, mediante la estereopsis,

detalles situados en planos diferentes y a una distancia mínima. Hay una distancia límite a

partir de la cual no somos capaces de apreciar la separación de planos, y que varía de unas

personas a otras. Así, la distancia límite a la que dejamos de percibir la sensación

estereoscópica puede variar desde unos 60 metros hasta cientos de metros3.

Un factor que interviene directamente en esta capacidad es la separación interocular. A mayor

separación entre los ojos, mayor es la distancia a la que apreciamos el efecto de relieve.

Las cámaras convencionales son monoculares (un solo objetivo) con lo que al realizar la

reproducción de un contenido grabado con una de estas cámaras los ojos reciben la misma

imagen desde el mismo punto de vista a los dos ojos. En el caso de realizar la grabación con

una cámara estereoscópica se observaría como los objetos salen o se adentran sobre el marco

donde se representan, dotando a la reproducción de un mayor realismo. En estas dos

imágenes (Figura 2.2) se puede apreciar la disparidad, es decir, las diferencias en la dirección

horizontal entre los elementos de la imagen.

Figura 2.2 Imagen estereoscópica

El mecanismo sobre el que se produce la estereopsis es extremadamente preciso. Pese a esto,

como se ha comentado anteriormente, no todo el mundo es capaz de realizar el proceso de

fusión. Desordenes visuales en la niñez, aunque fueran temporales, pueden dar resultado a

“estereoceguera”, se calcula que afecta al 5% de la población.

La causa más común es el estrabismo (desalineación de los ojos), aunque en caso de ser

corregido a tiempo la visión estéreo puede desarrollarse normalmente.

También se hace necesario comentar que las capacidades de visualización estereoscópica

varían con la edad, siendo los jóvenes son más sensibles a esta, sobre todo cuando la

disparidad de la imagen es mayor.

A parte de los problemas físicos que puedan impedir una correcta visualización, también se

hace necesario que la reproducción se realice siguiendo una serie de requisitos, unos comunes

2 Howard, I.; Rogers, B. (1995). Binocular Vision and Stereopsis.

3 "Principles of Stereoscopy", Herbert McCay's

12

a contenidos 2D y otros exclusivos de contenidos estereoscópicos. Por la parte de 2D se hace

necesaria: una correcta definición, resolución y evitar el parpadeo de la imagen, esto último se

consigue asegurando una frecuencia de refresco mínima de 50Hz. Por la parte de 3D se hacen

necesarios los siguientes requisitos:

La sensación de mareo no debe existir.

El usuario no debe tener que realizar un esfuerzo para adaptarse a la sensación 3D,

sino que esta sensación sea natural.

La sensación 3D debe ser nítida y constante a lo largo de todas las figuras y

especialmente en los bordes de los objetos.

El sistema debe ser lo más independiente posible del ángulo de visión del usuario.

De cumplirse todos estos requisitos estaremos ante un sistema 3D que será de gran aceptación

por parte del público. Este tipo de visión debe ser algo natural y no ha de suponer ningún

esfuerzo o molestia adicional.

2.2 TECNOLOGÍAS PARA LA VISUALIZACIÓN DE IMÁGENES

ESTEREOSCÓPICAS

Los Displays 3D que se utilizan para realizar la representación de los contenidos 3D pueden ser

divididos según la técnica usada para dirigir las vistas izquierda y derecha al ojo apropiado:

unos necesitan dispositivos ópticos cerca de los ojos, y por el contrario, otros tienen este

proceso integrado en el display mismo. Estos últimos, de visión libre (free-viewing), son

llamados autoestereoscópicos. El hecho de que el usuario no necesite incorporar ningún

elemento hace que este último tipo sea de alto interés.

2.2.1 AIDED-VIEWING

En los monitores que sí necesitan de elementos en el usuario (aided-viewing), dos perspectivas

diferentes son generadas (casi) simultáneamente. Los rayos de luz son generados en un plano

fijo de visión mediante diversos métodos de multiplexado que dirigen las imágenes al ojo

apropiado:

1) Multiplexado de colores (Anaglyph): Este sistema propone ubicar en un mismo cuadro las

dos imágenes de dos capas de color, superpuestas pero desplazadas ligeramente una

respecto a la otra para producir el efecto de profundidad. Cada imagen, para ser vista debe

ser filtrada por lentes especiales en cada ojo que separa y hace que los ojos tengan esa

diferencia de percepción de la imagen, estos filtros son óptimos al usar colores

complementarios en la imagen y en las gafas, la imagen presentada por ejemplo en rojo no

es vista por el ojo que tiene un filtro del mismo color, pero sí que ve la otra imagen en azul

o verde. Es muy común utilizar el par rojo/cian ya que esta combinación tiene

características simples de longitudes de onda paso bajo/paso alto.

13

Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y verde) y el usuario debe llevar incorporadas unas gafas con los respectivos filtros de colores para obtener la

visualización en 3D.

2) Multiplexado mediante polarización: Este sistema propone algo similar al multiplexado de

colores, la diferencia se basa en usar la naturaleza de la luz polarizada para separar las

imágenes izquierda y derecha, dicha separación de las imágenes se basa en la polarización

de la luz a +45º para el ojo derecho y a –45º para el ojo izquierdo, se desea al igual que en

el sistema anterior diferenciar cada imagen, pero si esta imagen se muestra como luz

polarizada tiene componentes determinadas de campo eléctrico y magnético, las cuales

pueden ser filtradas en recepción por gafas especiales. Este sistema posee varias ventajas

como el ser pasivo, y mantener todo el espectro de colores de una imagen, haciendo que

sea una técnica muy sencilla.

14

Figura 2.4 Lente con polarización horizontal solo permite el paso de las ondas con polarización vertical

El funcionamiento básico consiste en la utilización de dos proyectores con filtros (uno

vertical y el otro horizontal). La proyección se ha de realizar sobre una pantalla que refleje

los rayos sin modificar su polarización. El usuario deberá incorporar unas gafas con filtros

polarizados para realizar la separación de las imágenes.

Figura 2.5 Las lentes polarizadas permiten que solo una de las imágenes llegue a cada ojo

3) Multiplexado en tiempo: Este procedimiento propone que las imágenes correspondientes

a cada ojo se presenten en forma sucesiva una después de otra, en este sistema la

información L+R4 no está contenida en la misma imagen, hay un par de cuadros

independientes que se muestran en rápida sucesión. Es necesario separar estas imágenes

ante el espectador, y esto se logra con obturadores de alta velocidad alternados y

sincronizados, los cuales se montan en gafas especiales (shutter glasses), estos

obturadores son usualmente del tipo LCD (Liquid Crystal Display). El sistema visual humano

es capaz de mezclar imágenes estereoscópicas separadas por un retraso en el tiempo de

hasta 50ms. La velocidad a la cual se alternan las imágenes es conocida como velocidad de

renovación, y por ello se pueden producir imágenes con parpadeo, sin embargo se ha

mejorado y se han determinado ciertos valores donde se tiene buena calidad de

visualización (12 imágenes/seg. para el cine tradicional y 12,5-15 imágenes/seg. para la

televisión con exploración entrelazada). Este sistema funciona mucho mejor a velocidades

de renovación más elevadas con exploración progresiva.

4 Información estereoscópica de los canales visuales Izquierdo + Derecho, llamado I+D ó L+R.

15

Figura 2.6 Funcionamiento de los lentes "shutter"

La ventaja de este sistema radica en que se pueden utilizar monitores 2D para la

reproducción de los contenidos 3D siempre y cuando la frecuencia de refresco de pantalla

sea de al menos 100Hz y tengan un bajo tiempo de respuesta.

4) Multiplexado en espacio: En este sistema las dos vistas son creadas en lugares distintos y

redirigidas al ojo correcto mediante canales independientes. Este sistema es el utilizado

por los Head Mounted Displays (HMD)5. Con estos sistemas se puede llegar a tener una

percepción de hasta 140º en horizontal y 90º en vertical.

2.2.2 FREE-VIEWING

En este sistema, las dos imágenes (L+R) se presentan simultáneamente en tiras verticales

intercaladas. Un sistema lenticular de lentes cilíndricas situado en la pantalla enfoca ambas

imágenes en forma separada aproximadamente a una distancia interocular cercana a los

65mm.

Este sistema exige que el espectador no mueva su cabeza bruscamente, y restringe el perfil

multivisión de una pantalla de televisión, es decir un cambio de posición del espectador afecta

a la imagen que éste observa. Existe la sensación de que la escena gira con el movimiento del

observador, este fenómeno se conoce como Free viewpoint (punto de vista libre), y hoy en día

la tecnología ha desarrollado 8 de estos puntos. Cada Free Viewpoint requiere dos imágenes

(una por cada ojo) lo que hace que la pantalla tenga una resolución mucho mayor que la HDTV

(High Definition Television). Con esto se desarrolla en algo la técnica que permita que existan

múltiples espectadores, ya que no es necesario localizarlos en posiciones fijas. El principal

cambio es la utilización de micro-lentes que permiten controlar la difracción de los haces de

luz. Como no se necesitan gafas especiales, se lo conoce como sistema autoestereoscópico.

Algunos de los métodos más destacados son:

5 HMD: es un dispositivo de visualización similar a un casco, que permite reproducir imágenes creadas

por ordenador sobre un "display" muy cercano a los ojos o directamente sobre la retina de los ojos.

16

Electroholográficos: Estos displays, actualmente en fase de investigación, pueden

grabar y reproducir las propiedades de las ondas de luz (amplitud, longitud de onda y

fase). Este proceso, en caso de realizarse de forma perfecta, sería el ideal para

sistemas de visión libre 3D.

Volumétricos: Estos displays crean la sensación de inmersión proyectando la

información 3D dentro de un volumen. Estos sistemas típicamente presentan

problemas de resolución además de necesitar mucho ancho de banda. Este tipo de

displays se encuentran actualmente en fase de investigación.

Multiplexado por direccionamiento: Se aplican efectos ópticos como la difracción,

refracción, reflexión y oclusión para redirigir la luz emitida por los píxeles de distintas

vistas al ojo apropiado. Existen diversos tipos, pero los más destacados (debido a que

están más desarrollados tecnológicamente) son los basados en la refracción y en

oclusión:

1) Oclusión: Debido al efecto parallax (paralaje), partes de la imagen son ocultadas a

un ojo y visibles para el otro. Existen diversos tipos dependiendo del número de

hendiduras y de la posición de colocación de la barrera, que puede estar enfrente

o detrás de la pantalla. Las pantallas con barrera de parallax detrás del display ya

se pueden encontrar en el mercado en monitores tanto de PC como de portátiles.

Como se observa en la figura 2.7, la barrera de parallax es la encargada que

redirigir los haces de luz (y no la imagen en sí), al ojo adecuado. El problema que

tiene este tipo de displays es que la posición de visualización es muy estricta

siendo posible su uso sólo para una persona.

Figura 2.7 Tecnología de barrera de parallax

2) Refracción: Como en el caso anterior existen diversos tipos de display, siendo

Integral Imaging el más prometedor. En este tipo de displays la imagen se

compone de múltiples pequeñas imágenes 2D capturas con un amplio número de

grupos de pequeñas lentes convexas. Cada grupo de lentes captura la escena

desde un punto de vista distinto. De esta manera el usuario percibe diferentes

imágenes para diferentes puntos de vista. El problema radica en que los grupos

17

lentes deben de ser muy pequeños, debido a que cada píxel debe contener un

grupo de lentes. Por este motivo, el display debe de tener una resolución muy alta.

Como solución alternativa existen las pantallas lenticulares que usan lentes

cilíndricas que pueden ser consideradas como una versión unidimensional de las

pantallas Integral Imaging. Debido a la orientación vertical de las lentes, los rayos

de luz de cada imagen son emitidos en direcciones específicas en el plano

horizontal.

Figura 2.8 Funcionamiento monitor lenticular

En la figura anterior se muestra precisamente este funcionamiento. Se observa como el

usuario tendrá la posibilidad de colocarse en distintos lugares donde podrá percibir

correctamente la sensación 3D, al contrario que con la barrera de parallax donde sólo existe

un lugar donde es posible observar correctamente el contenido.

2.3 ADQUISICIÓN / GENERACIÓN DE CONTENIDOS 3D

Existen diferentes tecnologías de creación de contenidos 3D y también existen diferentes

formas de visualización estereoscópica, esto hace que existan multitud de formatos con los

que codificar, almacenar y transmitir los contenidos. Cada formato de representación depende

de un formato de codificación concreto.

La adquisición es la primera etapa en el proceso de crear y transmitir señales de 3D; la cadena

a la que el vídeo estereoscópico debe someterse se describe en la figura 2.9.

Figura 2.9 Cadena de transmisión del vídeo estéreo

Los diferentes formatos para la codificación, transmisión y visualización hacen que existan

muchas formas de adquirir vídeo 3D y de procesarlo. De los puntos anteriores del capítulo se

desprende la conclusión de que para crear una imagen estereoscópica es necesario al menos

tener información de imágenes L+R, lo que supone que se necesitan dos lentes para captar

estas informaciones; sin embargo los nuevos métodos proponen algunas otras soluciones.

18

2.3.1 ADQUISICIÓN A TRAVÉS DE 2 LENTES (CÁMARA ESTEREOSCÓPICA)

Este método se presenta como la solución elemental al problema de la adquisición, debido a

que es la manera más próxima de emular el sistema de visión humano.

La idea principal es asemejar las lentes a la visión humana, es por ello que la separación

interlenticular debe ser de 65 mm. y tener un ángulo de convergencia igual al humano. Un

requerimiento elemental para el diseño de un sistema de adquisición estereoscópico es la

comprensión total del espacio real (espacio donde se encuentra el objeto) para reproducir el

espacio del vídeo estereoscópico.

La tecnología de cada lente para captar la imagen es igual a la tradicional de los sistemas de

vídeo monoscópico, es decir cámaras CCD. Cada lente trabaja bajo sus principios para capturar

la imagen independientemente.

Figura 2.10 Adquisición mediante 2 lentes con configuración en paralelo

2.3.2 ADQUISICIÓN A TRAVÉS DE MÚLTIPLES CÁMARAS (SISTEMA MULTIVISTA)

Para la implementación de estos sistemas se utilizan lentes monoculares tradicionales

dispuestos de tal forma que permitan obtener los detalles que proporcionen información de

profundidad para una escena. Estos sistemas, al ser complicados, quedan reservados para

aplicaciones muy específicas y determinadas, tales como espectáculos deportivos y culturales,

donde al espectador se le puede incluso brindar mayores posibilidades de interactividad. En

estos sistemas la producción de imágenes es más compleja y robusta que en otros casos, ya

que con muchas informaciones visuales los sistemas deben ser capaces de procesar gran flujo

de datos, tener altas tasas de compresión y obtener variables útiles para el desarrollo.

La etapa de captura se desarrolla mediante adquisición sincronizada en el tiempo la cual se

logra para todas las cámaras dispuestas, esta sincronización utiliza Genlock6. Estas imágenes

6 Genlock: Técnica común en vídeo donde una referencia de vídeo específica sirve para sincronizar todas

las fuentes de vídeo que se dispongan.

19

captadas por la cámara son almacenadas directamente sin compresión en el sistema de

almacenamiento, para un procesamiento offline (fuera del proceso).

El hecho de obtener mucha más información de imagen permite tener algunos resultados

como vídeo estéreo y vídeo con libre punto de vista, el cual se da cuando una escena puede

verse desde cualquier ángulo por la persona y esta percibirá una visión volumétrica de la

respectiva vista elegida.

2.3.3 ADQUISICIÓN A TRAVÉS CÁMARA 2D + Z-CAM (TOF)

Este método es muy útil en algunos casos, dado que la información de profundidad permitiría

generar el vídeo estereoscópico. Se propone un sistema en el cual se capte el plano 2D con un

lente normal y por otro lado se capte la información de profundidad de cada píxel7 de este

plano, eso se hace a través de las conocidas Z-Cam o también llamadas TOF (Time of Flight),

que permiten generar información para dar profundidad a cada píxel.

La Z-Cam genera pulsos de luz infrarroja con diodos láser que son reflejados por los objetos

que la cámara capta, al capturar esta reflexión el dispositivo calcula para cada píxel la distancia

exacta a la que se encuentra y genera un mapa de profundidad, el cual no es más que el vídeo

original en escala de grises, en donde el blanco representa los píxeles más cercanos y el negro

los píxeles con mayor componente de profundidad Z.

2.3.4 ADQUISICIÓN A TRAVÉS CÁMARA 2D (Conversión 2D-3D)

Esta técnica aunque resulte la que más se acopla a los sistemas que están en vigencia, requiere

un procesamiento digital de la señal muy rigurosa y compleja.

Al no contar con la información real de profundidad, el emular o crear esta información

disminuye calidad y precisión. A pesar de todo ello, este es el método más usado en la

actualidad, dado que permite una compatibilidad total con los sistemas existentes, que lo

único que deben incorporar es la etapa de conversión a 3D.

Esta conversión se puede hacer a dos niveles, en la producción y en la recepción; el último

caso es lo que actualmente se tiene como 3DTV, la cual toma el cuadro en 2D, lo convierte a

3D y lo presenta en anáglifo polarizado o multiplexado en el tiempo, sin embargo cuando este

proceso se realiza en la producción se puede tener mayor calidad.

2.4 FORMATOS DE VÍDEO PARA 3D

Los formatos establecidos para el vídeo 3D han ido evolucionando desde los más simples hasta

aquellos con procesos exclusivos y complejos. Un formato se puede definir como la descripción

de la información que se adquiera y se procesa.

2.4.1 FORMATO ANÁGLIFO CROMÁTICO OPTIMIZADO (OCA)

Este formato de vídeo 3D está considerado como uno de los más antiguos y con mayores

restricciones por su baja calidad; es notorio que este formato tiene completa compatibilidad

7 Pixel: La menor unidad homogénea en parte de una imagen digital.

20

ya que este se reproduce en las pantallas convencionales y el procesamiento para generar 3D -

OCA es sencillo. El formato OCA (Anáglifo Cromático Optimizado) se le puede considerar como

un sistema admisible ya que ha sido optimizado para no perder calidad en el color ni sufrir

grandes alteraciones en el vídeo original, es de fácil manipulación y de bajo costo.

2.4.2 PROCESAMIENTO INDEPENDIENTE DE LAS SEÑALES DE VÍDEO (CSV)

En este formato se tratan y procesan las señales para 3D que puedan existir de manera

independiente, es así que si se tienen señales izquierda y derecha, cada una de ellas se

someterá a su estándar de compresión, a su codificación y será incluso transmitida

considerando que es una señal 2D, esto supone efectivamente el gasto del doble de recursos

para una información 3D, por lo tanto el sistema se limita a la existencia de dos imágenes.

Dentro de este formato podemos encontrar la técnica de Dual-Stream y de Simulcast. En

ambas técnicas las señales se adquieren independientemente, tienen su línea de

procesamiento independiente dentro del sistema y son transmitidas bien sincronizadamente

multiplexadas o de manera simultánea, ocupando el doble de recursos técnicos. En la

recepción se utilizan dos plataformas independientes para cada señal.

Este formato representa la solución natural a la producción y transmisión de señales estéreo

de vídeo, el formato es conveniente y aplicable para 2 vistas, izquierda y derecha. A cada una

de las vistas se le aplicarán codificadores que se usan actualmente. La desventaja principal de

este formato es que no se utiliza la relación y la dependencia entre las vistas, que para otros

formatos representa un elemento vital para reducir los recursos técnicos utilizados. Por otro

lado la ventaja existente es la fácil recuperación de una de las vistas para la compatibilidad 2D.

Dado que no se utilizan técnicas avanzadas para la codificación de este vídeo se conoce a este

como CSV, o vídeo estéreo convencional.

2.4.2.1 Concepto de Dual Stream

En este caso se generan dos flujos de las señales y posteriormente se someten a una etapa de

multiplexación donde se estructura una secuencia de transmisión para que así se genere el par

de cuadros de vídeo de manera ordenada, este formato es compatible con 2D debido a que si

solo ese desea un cuadro, es fácil descartar el otro y diferenciar cuál es el que se desea ver.

Inicialmente se contempla el Dual Streaming como el enviar los mismos flujos para dos fines

diferentes, pero si se trata de señales estereoscópicas, se aprovecha esta condición para enviar

en dos flujos ligeramente distintos y que estos sean procesados de manera independiente.

Este formato es bastante aplicable con técnicas de compresión y transmisión actuales, ya que

se maneja cada señal de manera independiente.

2.4.2.2 Transmisión Simultánea (Simulcast)

Aunque el procesar las señales independientemente es lo más simple, es recomendable

simplificar el sistema, el esquema de transmisión simultánea plantea la existencia de dos

señales individuales L y R que serán transmitidas en diferentes canales, es decir como dos

señales diferentes; sin duda los recursos necesarios son elevados pero la infraestructura para

vídeo monoscópico no se altera, solo se aumenta.

21

2.4.3 FORMATO COMPATIBLE CON EL CUADRO HD (CFC)

El formato que se expone a continuación, ha tenido una evolución significativa, y comenzó por

la idea más sencilla, que fue enviar los cuadros izquierdo y derecho por separado de manera

alternada es decir como una transmisión “doble” de las escenas. Después siguió evolucionando

hasta obtener mayor eficiencia ubicando a las dos imágenes en el mismo campo. Dado que la

base de este formato es el cuadro HD, el estándar HDMI propuso la idea de implementarlo y

definió formatos bases y formatos alternativos, dejando muchas opciones para realizar la

producción de imágenes 3D. Además se propone una efectiva solución a la compatibilidad, el

fundamento básico dice que estos formatos se basan en la existencia de 2 vistas (izquierda y

derecha) que aprovechando el número de líneas del cuadro, se ubican dentro del mismo

plano. El hecho de que se ubiquen dos imágenes en el lugar que ocuparía una supone una

pérdida de calidad, sin embargo la evolución de las técnicas de compresión ha permitido que

se mantenga la buena calidad y se comprima con estándares avanzados. Entre los formatos

avanzados HDMI, la versión 1.4a establece que se puede sustituir la información de uno de los

cuadros por información de profundidad, haciendo que la adquisición de esta información

pueda ser aprovechada.

Este formato se presenta como una solución sencilla a la compatibilidad, ya que se aprovecha

las cualidades del canal de alta definición para ubicar en él, el máximo de información posible.

HDMI 1.4 establece las normas para la comunicación de imágenes HD a través de la interfaz

con el mismo nombre, y en su versión ampliada 1.4a establece los formatos para ubicar

imágenes L+R en el cuadro HD.

Para el estándar DVB-T se puede considerar que un canal HDTV ocupa la mitad del ancho de

banda de un múltiplex, y por lo tanto el canal de 3DTV ocuparía los mismos recursos. El hecho

de introducir dos imágenes en un cuadro HD implica la pérdida de resolución, lo cual es una

desventaja; por otro lado la gran ventaja de este formato es la elevada compatibilidad que se

obtiene. De igual forma se definen los tipos de barrido de línea para cada estructura 3D, ya sea

progresivo o entrelazado, manteniendo los principios de cada uno de estos métodos. Las

estructuras 3D en HDMI 1.4a deberían procurar transmitir dos señales de vídeo en completa

resolución 1080p, una para cada ojo, es así que se establecen nuevas dimensiones del cuadro

HD para 3D, todas ellas se basan en imágenes L+R, sin embargo también es válido para las

estructuras actuales de 1920x1080p, claro que reduciendo su resolución. Estas nuevas

dimensiones del cuadro HD establecen los siguientes conceptos:

Full HD 2D (FHD2D) / Half HD 3D (HHD3D): Es la de menor calidad para reproducción

3D, mantiene las dimensiones convencionales del FHD2D es decir 1920x1080p.

Full HD 3D (FHD3D): Es la que conserva la calidad de cada cuadro, por lo tanto las

dimensiones del cuadro, aumentan de acuerdo a la configuración.

A continuación se presentan todas las configuraciones posibles y para cada dimensión del

cuadro HD:

22

2.4.3.1 Formato de Empaquetamiento de Cuadro

Para este formato se ubica el cuadro izquierdo en la parte superior, posteriormente un espacio

en blanco y luego el cuadro derecho, se establece una nueva dimensión del cuadro HD (ver

figura 2.11), este espacio en blanco viene dado por el pulso de borrado que el cuadro tiene

originalmente y que es de 45 líneas. Es muy similar, por la disposición de los cuadros, al

formato Top and Bottom, pero se diferencia por la estructura detallada del cuadro.

Figura 2.11 Empaquetamiento de cuadro para formato progresivo

2.4.3.2 Configuración Side by Side Half (SbS)

En esta configuración se propone ubicar los cuadros izquierdo y derecho uno a continuación de

otro horizontalmente (ver figura 2.12). En este caso el SbS del tipo Half (HHD3D) los cuadros

originales HD reducen su resolución a la mitad en el eje horizontal, para al final obtener un

cuadro HD de dimensiones normales, en este caso el cuadro derecho se ubica a la derecha y el

izquierdo en la izquierda. La señalización para detectar este tipo de cuadros se realiza

mediante el estándar HDMI 1.4a.

Figura 2.12 Side by Side (SbS)

2.4.3.3 Configuración Top and Bottom (TaB)

En este caso las imágenes izquierda y derecha son submuestreadas a la mitad de su resolución

en el eje vertical y posteriormente ubicadas como muestra la figura 2.13.

23

Figura 2.13 Top and Bottom (TaB)

2.4.3.4 Configuración quincunx matrix (Tablero de ajedrez)

Este formato forma parte del grupo de formatos extendidos de HDMI 1.4a, es decir no son

muy utilizados, pero también proponen una solución para la disposición de la información

estereoscópica, en este caso se propone dividir a la imagen en todos sus píxeles e ir alternando

en forma de tablero de ajedrez entre el píxel del cuadro derecho y el píxel del cuadro izquierdo

(ver figura 2.14), en este caso cada imagen también se submuestrea a la mitad de su

resolución para poder ocupar un cuadro HD de dimensiones convencionales.

Figura 2.14 Configuración Tablero de ajedrez

En este formato se mantiene el número de líneas originales, es poco usado para la

estructuración de las imágenes antes de la transmisión. Por ello no se requiere un estudio

minucioso; existen dos posibilidades para estos cuadros, cualquiera de las vistas, izquierda o

derecha, puede ocupar el primer píxel del cuadro HD.

2.4.3.5 Configuración campos alternados

Este es uno más de los formatos extendidos de 3d_Structure para HDMI, es una configuración

que se basa en el formato entrelazado, dado que intercala en la disposición del cuadro HD (ver

Figura 2.15) los campos pares e impares para información estereoscópica izquierda y derecha.

Para este caso se mantiene el número de píxeles por línea, el número de líneas efectivas se

duplica al igual que la frecuencia.

24

Figura 2.15 Configuración de Campos alternados

2.4.4 FORMATO VÍDEO + PROFUNDIDAD (V+D)

La herramienta que representa la información de la profundidad es el mapa de profundidad. La

normativa ISO/IEC 23002-3 (MPEG-C Parte 3) define a este como un formato válido para los

sistemas de 3D y establece los modos de producción y compresión para estas imágenes. Para

obtener un mapa de profundidad existen varias técnicas; a continuación se describen los

procesos en el lado transmisor de este tipo de señales.

Existen 3 formas de obtener las señales necesarias para este formato, de todas estas se

desprende el mapa de profundidad que luego será codificado independientemente y se

estructura junto con el vídeo en el conjunto de bits a ser transmitido.

Figura 2.16 Imagen con su mapa de profundidad asociado

2.4.4.1 El mapa de profundidad

El mapa de profundidad es una representación visual de las escenas de vídeo, la cual contiene

valores discretos que representan la profundidad de cada píxel del cuadro original. Las

imágenes son representadas por cuadros en escalas de grises donde cada gris representa una

distancia Z, y se ha establecido que para los objetos cercanos se asigne el color blanco y para el

25

más alejado el color negro. Para el vídeo, la profundidad se representa por una señal de vídeo

monocromática de 8 bits, con estos 255 valores se obtienen buena calidad para la posterior

interpretación de la profundidad de una escena. El mapa de profundidad consta simplemente

de una matriz que contienen N valores asociados a los píxeles individuales del flujo de vídeo

regular. Esta señal puede ser procesada con técnicas específicas para señales de luminancia8, o

más modernamente con las técnicas de codificación que el vídeo de la televisión digital utiliza.

Esta al ser una señal auxiliar de vídeo requiere ser señalizada, para lo cual se introduce un byte

que determina que la señal es de este tipo.

2.4.4.2 Generación del mapa de profundidad a partir de 2D

La generación de este tipo de información, forma parte del formato de conversión 2D a 3D, es

decir aquí se genera un mapa de profundidad utilizando algún algoritmo que estime el valor de

la componente Z de cada píxel. Algunas técnicas crean un mapa de profundidad a través de la

estimación de la segunda vista, y posteriormente emplean la técnica como si se hubiera

obtenido la imagen desde dos cámaras. Existen una gran variedad de propuestas para obtener

este mapa de profundidad, y todos estiman la componente Z de diferente manera, incluso

existen técnicas para realizar transformación en tiempo real.

Para la generación de este mapa, algunas técnicas parten del análisis del vector del

movimiento el cual se obtiene fácilmente a través del H.264 (MPEG-4), y con este vector

construyen el mapa de profundidad.

2.4.4.3 Generación del mapa de profundidad a través de Cámara infrarroja

Las Zcam funcionan a partir de la luz infrarroja que detecta la posición de los objetos, por lo

que también se denominan cámaras infrarrojas. Estas cámaras obtienen dos señales de vídeo,

el plano 2D y el mapa de profundidad, este tipo de cámaras generan pulsos infrarrojos que se

reflejan por los objetos y dependiendo de dicha reflexión se obtiene el valor de profundidad de

cada objeto de la imagen. Estas cámaras constan de un CCD ultra rápido y una fuente de luz

infrarroja. Los sistemas de creación de mapa de profundidad por rayos infrarrojos procuran

generar imágenes de alta calidad y no solo es la adquisición sino el proceso para generar el

mapa en sí. Después de la adquisición, es clave en el proceso corregir y poner a punto factores

como brillo, textura y segmentación de la imagen. En primera instancia la cámara emite y

recibe pulsos de luz infrarroja, los cuales viajan junto con la luz que representa el plano, es por

ello que cada información debe ir a su correspondiente módulo de procesamiento.

2.4.4.4 Generación del mapa de profundidad a través de Cámara Estéreo

Si bien es cierto la técnica más adecuada para generar un mapa de profundidad es a través de

un transductor diseñado para ello; se han desarrollado diversos algoritmos que parten de que

la mayoría de sistemas de 3D trabajan con cámaras estéreo, por la facilidad y porque las

cámaras con dos lentes son más populares que las cámaras infrarrojas para profundidad. Por

lo tanto la atención ya no está en los lentes ni en el proceso de adquisición, sino mas bien en la

8 La luminancia “Y” es la componente del vídeo que tiene la información de luminosidad (luz o brillo) de

la imagen.

26

línea base del procesamiento de las señales izquierda y derecha para generar la información

V+D.

En esta técnica se identifican dos etapas para la generación del mapa, la primera consiste

básicamente en preparar a la imagen para que se pueda extraer el mapa a partir de la

disparidad. Los 5 procesos que la primera etapa comprende, procuran corregir los errores de

los píxeles de la imagen para que posteriormente en la segunda etapa, la detección de la

disparidad sea correcta.

2.4.5 FORMATO MULTI-VIEW VIDEO CODING (MVC)

Este formato es robusto debido a que posee su propio estándar de compresión y codificación,

el Multi-view Video Coding es una extensión que se hizo para H.264 (MPEG-4), y en este ya se

contempla la posibilidad de que desde la adquisición se obtengan no sólo dos, sino múltiples

vistas de una escena, y que estas sean comprimidas y transmitidas como un perfil multivista

Con la aparición de esta extensión a la norma, no solo se fortalece el concepto del 3D basado

en la existencia de dos imágenes como en el sistema visual, sino también surge el concepto de

FVV (Free View-point Video), en el cual se adquieren n vistas, y se presentan al espectador n

vistas de las escenas. Para el caso particular en el que n=2 vistas es el que se usa en la

actualidad en los sistemas Blu-Ray 3D.

2.4.6 FORMATO MVD (MVC+D)

La búsqueda de cada vez más calidad ha llevado a extender formatos ya existentes, es así que

al MVC, a pesar de que en su concepción requiere n vistas lo que lo haría de gran calidad, se le

añade una información importante que ya ha sido estudiada, la profundidad. Este formato es

considerado dentro de la categoría de los formatos avanzados para producción de vídeo 3D y

se establece la existencia de n vistas, cada una de ellas con su respectivo mapa de

profundidad. Al igual que para MVC, la particularización de este formato en n=2 significa un

estéreo de alta calidad.

Figura 2.17 Formato MVC + Profundidad

La gran ventaja de este formato es que al existir múltiples vistas y reforzadas con la

información de profundidad, la presentación del vídeo al espectador tiene más calidad; incluso

27

el espectador podrá observar cada una de las n vistas de manera independiente en 3D. Debido

a que cada una tiene su mapa de profundidad. Además el procesamiento digital de la señal se

simplifica al evitar el cálculo de algunos parámetros de profundidad.

2.4.7 FORMATO LAYERED DEPTH VIDEO (LDV)

Este al igual que MVD, está dentro de los llamados formatos avanzados para vídeo 3D. Para

este formato se generan más informaciones de profundidad para la imagen que se adquiera; al

igual que el anterior es un formato multivista por lo que puede existir n informaciones visuales

por señal de vídeo. Como es de imaginarse la cantidad de datos que se obtienen es bastante

grande por lo cual la compresión que se realice es fundamental y determinante.

El método nace con LDI (Layered Depth Image) y se expande hasta aplicarlo no sólo a

imágenes sino en vídeo también. La información que se asocia por cada vista de la imagen es:

la imagen de vídeo monoscópica, el mapa de profundidad asociado, una capa para representar

el fondo del vídeo (se obtiene de la oclusión del vídeo original), y una capa de fondo para la

profundidad.

Figura 2.18 Formato LDV

De todas las técnicas de reconstrucción de imágenes 3D, LDV es una de las más eficientes en el

momento de sintetizar las vistas en escenas 3D complejas.

2.4.8 FORMATO DEPTH ENHANCED VIDEO (DES)

En este formato se establece que se pueden generar 2 o más vistas (n≥2) acompañadas de

información de profundidad y capas de oclusión; la información es similar a LDV sin embargo la

diferencia es que LDV transmite una vista completa y crea el resto, en este caso cada una de

las cámaras capta el vídeo de color con su respectiva extensión de la información.

En general todos los formatos, en los cuales se utilice a la profundidad como información para

crear el 3D dan flexibilidad para que se pueda manejar de mejor forma toda la información,

por lo tanto se vuelve un poco más sencillo el manejar conceptos como movilidad, efectos de

profundidad, etc.

28

Este formato extiende al estéreo convencional ya que genera una serie de datos extras a las

originales izquierda y derecha de un sistema estereoscópico tradicional, al extender el estéreo

tiene como ventaja, dejar la posibilidad de que los formatos y esquemas anteriores puedan

adaptarse. Dentro de las informaciones adicionales se manejan señales de profundidad

adicionales y capas de oclusión, lo cual brinda una funcionalidad mayor por ejemplo se crean

facilidades para la post producción, además se puede sintetizar varias vistas así como adaptar

la línea base con el fin de presentar en una pantalla de TV o ser proyectado en el cine. DES

(Depth Enhanced Video) establece que existan 2 flujos de vídeo, con un mapa de profundidad

y dos capas de oclusión cada uno. Se dice que este es un formato genérico porque el sistema

genérico de adquisición brinda todas las señales necesarias de manera precisa y sencilla.

2.4.9 RESUMEN DE FORMATOS

MVD, LDV y DES fueron presentados como formatos avanzados para esquemas multivista y se

mencionó como ventaja sobresaliente la viabilidad para que se usen en recepción pantallas

autoestereoscópicas al usuario.

En definitiva no importa cuál formato se utilice para transmitir la información 3D, el desarrollo

de la tecnología de displays permite convertir esa información a dos o más cuadros que se

pueden visualizar por cualquier método que el fabricante elija. Lo más importante es

encontrar un formato óptimo.

2.5 CODIFICACIÓN Y COMPRESIÓN DE LAS SEÑALES DE VÍDEO

ESTEREOSCÓPICO

Existen diversos organismos de estandarización que están trabajando en un modelo estándar

de codificación. Los tres más importantes que han colaborado en el desarrollo de estándares

sobre tecnologías 3D son la “Internacional Organization for Standardization (ISO)”, la

“International Electrotechnical Commission (IEC)” y la “International Telecommunication Union

(ITU)”. ITU conjuntamente con MPEG (grupo de expertos en vídeo del ISO/IEC), trabajan en la

estandarización del H.264 (MPEG-4 parte 10 de ISO/IEC), este estándar conjunto trata aspectos

de codificación multi-vista: MVC (“Multi-View Coding”). Mediante este tipo de codificación se

pretende conseguir la compresión de diferentes vistas para poder realizar transmisiones de

Vídeo 3D con tasas de compresión adecuadas.

MVC al estar amparado por los tres grandes cuerpos de estandarización (ITU, ISO e IEC) se

puede estimar que será el formato más extendido en un futuro y evitará multiplicidad de

formatos de codificación multi-vista.

Por su parte MPEG también trabaja en otros aspectos, por ejemplo, la parte 16 del MPEG-4,

denominada AFX (“Animation Framework extensión”), define una colección de herramientas

que permiten producir contenidos sintéticos animados en tres dimensiones.

También se está trabajando en el MPEG-C, que define los algoritmos avanzados de codificación

de vídeos. Entre las partes del estándar, la parte 3 define la manera de añadir uno o más flujos

de datos auxiliares (como por ejemplo mapas de profundidad) que están asociados con los

29

píxeles del flujo de vídeo principal. De este modo, se puede utilizar este estándar para codificar

de forma universal la información estereoscópica para aplicaciones de 3D.

A continuación se explicarán algunas de las formas más habituales en las que se codifican este

tipo de contenidos.

2.5.1 CODIFICACIÓN ESTEREOSCÓPICA

La recomendación ITU-T H.264, o más conocida como MPEG-4, tiene grandes ventajas y buen

desempeño; si bien es cierto H.264 tiene varias extensiones aplicables a 3D, el MPEG-4

convencional también se puede aplicar a los formatos de vídeo 3D, porque el vídeo que se

transmite se le trata como vídeo 2D de características especiales.

MPEG-4 tiene una gran versatilidad y calidad de codificación, si bien es cierto MPEG-2 llegó a

desarrollar una extensión para perfil multivisión, en el cual se contempla el caso de múltiples

vistas y de cómo explotar la relación entre ellas para codificar y comprimir, no llegó a ser el

estándar de vanguardia y llegó a su máximo desarrollo en dicha extensión.

Las ventajas de MPEG-4 hacen que este sirva de base para desarrollar modelos más eficientes

ante la gran cantidad de información que los formatos de 3DTV requieren.

A continuación se realiza una descripción de MPEG-4 y de cómo este se adapta a los diferentes

formatos, dependiendo la clase y cantidad de información necesarias.

2.5.1.1 Características generales del estándar H.264, MPEG-4 Parte 10

El procedimiento seguido se basa principalmente en aplicar JPEG sobre las imágenes de

referencia y a partir de esta, y mediante técnicas de compensación de movimiento (aplicadas

sobre macrobloques 8x8, 16x16 etc.), aprovechar la redundancia temporal entre imágenes

consecutivas pertenecientes a la misma escena. Únicamente se codifican las diferencias. Estas

diferencias se describen mediante los vectores de movimiento, que especifican, si se ha

movido un macrobloque, cual es la nueva posición dentro de la imagen del macrobloque y de

esta manera poder hacer una predicción de la imagen. Sobre esta imagen diferencia también

se aplica JPEG.

El estándar define cinco tipos de imágenes en la codificación:

Imágenes Intra (I): Sólo contienen macrobloques intra. Son imágenes codificadas

teniendo en cuenta únicamente la propia imagen (son imágenes de referencia). Las

imágenes I suelen ser codificadas de manera similar a la codificación JPEG. Las

imágenes I son las que más ocupan y se utilizan como puntos de acceso aleatorio ya

que sólo dependen de sí mismas en la descodificación.

Imágenes Predicted (P): Contienen macrobloques P y/o macrobloques I. Este tipo

corresponde a las imágenes predichas que hacen referencia a una imagen de tipo I o P

anteriores en tiempo. Ocupan entre un 30% y un 50% menos que una imagen I.

30

Imágenes Bi-Predicted (B): Contienen macrobloques B y/o macrobloques I. Son

imágenes predichas con referencia a la imagen I anterior y a la P posterior. Es

necesario que el descodificador tenga las dos referencias, anterior y posterior, para

poder descodificarlas correctamente. Suelen ser aproximadamente un 50% más

pequeñas que las imágenes P.

Imágenes Switching Predicted (SP): Contienen macrobloques P y/o I. Facilita el cambio

entre secuencias codificadas. Sólo se utilizan en versiones extendidas del estándar.

Imágenes Switching Intra (SI): Son iguales que las SP pero contienen macrobloques SI,

que son un tipo especial de macrobloques intra. Sólo se utilizan en versiones

extendidas del estándar. Cuando una imagen es codificada esta puede ser almacenada

en un contenedor de bytes o directamente transmitida. La transmisión seguirá un

patrón fijo que consistirá en el envío de una imagen I seguida de imágenes P y/o

imágenes B.

En la figura 2.19 podemos ver un posible patrón de transmisión.

Figura 2.19 Estructura típica de transmisión de H.264

Es importante tener en cuenta que el descodificador necesitará una imagen de referencia

(imagen I) para empezar a descodificar, debido a que las demás imágenes (hasta la siguiente

imagen I) hacen referencia a ella.

2.5.1.2 H.264 AVC en OCA (Optimized Chromatic Anagliph)

En este caso la naturaleza de la señal de vídeo es similar a las señales convencionales de vídeo

2D, por lo tanto el estándar es fácilmente aplicable sin ninguna restricción, tal como lo

muestra la figura 2.20.

Figura 2.20 Codificación para OCA

Cabe mencionar que se debe procurar mantener la calidad, por lo que trabajar en HD sería una

idea conveniente en este formato. Para OCA, no existen señales auxiliares ni información extra

para el vídeo 3D.

31

2.5.1.3 H.264 AVC para CSV (Conventional Video Stereo)

Esta es la aplicación natural a la parte estéreo, considerando que aquí las señales de vídeo son

monoscópicas e independientes. Dentro de CSV, podemos considerar 2 casos como los

formatos antes estudiados, el caso del Dual-Streaming y del Simulcast; con esto H.264 trabaja

normalmente sobre cada uno bajo la estructura expuesta en las figuras 2.21 y 2.22

respectivamente:

Figura 2.21 Aplicación de H.264 en Dual-Streaming

Figura 2.22 Aplicación de H.264 en Simulcast

En los dos casos la codificación es totalmente independiente, por lo que el codificador trabaja

con señales completamente convencionales. Las desventajas que se presentan son:

Dual-Streaming: se debe tener en consideración que la estructura de transmisión

soporte el video-out proveniente de la codificación de dos señales.

Simulcast: la estructura de transmisión si soporta la salida del codificador, se debe

considerar que el uso del canal de transmisión en este esquema de transmisión se

duplica.

Al ser informaciones completamente independientes estos esquemas se pueden ajustar a los

formatos V+D, utilizando en lugar del vídeo derecho a la información de profundidad.

32

2.5.1.4 H.264 AVC para CFC+ (Conventional HD Frame Compatible +)

CFC+ es el formato en el cual la información tiene una naturaleza propia para 3DTV, por lo cual

la cantidad de información ya crece; como se estudió en el formato, aquí se manejan al menos

las dimensiones del cuadro HD y para casos de mayor calidad, dimensiones superiores. Dado

que MPEG-4 si establece algunos niveles y perfiles en los cuales encajen estos vídeos, la

codificación si sería aplicable.

Dado que en este formato se manejan los cuadros L+R bajo algún empaquetamiento, es

necesario utilizar la extensión de H.264 que define un SEI (Supplemental enhancement

information), es decir un señalizador de información adicional. En este SEI se indica bajo que

formato se empaqueta la información, y que tipo de información existe. Para mejorar la

calidad en la codificación a esta información de vídeo 3D se le aplica el SVC (Scalable Video

Coding), el cual no es más que un anexo del H.264 para señales de mayor calidad y por

supuesto compatible con los parámetros de codificación antes estudiados.

En la figura 2.23 se ilustra como actuaría el codificador para casos de empaquetamiento en un

cuadro HD. Cabe señalar que el tipo de empaquetamiento es totalmente independiente, ya

que mientras se ocupe las dimensiones normadas para los cuadros HD, el vídeo estereoscópico

se codifica como señales normales, aún cuando estas lleven información estereoscópica.

Figura 2.23 Aplicación de H.264 en CFC+

Debido al uso del cuadro HD, es necesario utilizar la señalización correspondiente, dicha

señalización se encuentra en la norma HDMI 1.4a en la sección correspondiente a 3D.

2.5.2 CODIFICACIÓN PARA EL FORMATO V+D

La idea inicial de establecer el mapa de profundidad surge del proyecto ATTEST9, y se basa en

que una señal monocromática ahorraría muchos recursos de transmisión y facilidad en

codificación. Existen algunas técnicas que resulta una solución viable en este formato,

9 Advanced Three-dimensional Television System Technologies (ATTEST), proyecto para la investigación

de un sistema de difusión eficiente de televisión 3D.

33

procurando siempre el uso eficiente de los recursos y evitar en lo posible que se demanden

tasas de bits excesivamente altas.

El desarrollo de estas técnicas ha permitido que este formato sea eficiente e incluso sea

aplicable a la televisión móvil 3D. Es posible también aplicar la extensión MVC de H.264

tomando en cuenta que una de las vistas puede ser el mapa de profundidad.

2.5.2.1 MPEG-C parte 3

Este estándar conocido también como el ISO/IEC 23002-3, establece el procesamiento

separado e independiente de las señales de vídeo y de la señal de profundidad, tomando en

cuenta que codificar una señal de profundidad monocromática requiere menos tasa de bits y

que en recepción se debe contar con dos decodificadores para separar la reconstrucción de

ambas señales.

Cabe señalar que el estándar no establece técnicas de compresión o transmisión, sólo

establece la metodología que puede ser aplicada para nuestro estudio con técnicas

H.264/AVC.

Se considera que el codificador para la profundidad tendrá como salida una tasa de bits de

entre el 5 y 10% de la tasa del vídeo 2D, siendo así la tasa total de bits un 110% en V+D usando

codificación para cada señal, un valor que puede resultar cuestionable para servicios donde el

uso del canal sea realmente limitado.

La cadena de transmisión para este formato se representa en la figura 2.24.

Figura 2.24 Cadena de Transmisión para MPEG-C parte 3

El esquema de la figura 2.24 muestra la codificación independiente de las 2 señales, de lo cual

resultarán dos flujos de bits; para la transmisión de dichos flujos, estos deben ser

multiplexados cuadro a cuadro generando un único transport-stream, el cual puede

34

eventualmente contener parámetros adicionales del mapa de profundidad como información

auxiliar.

2.5.2.2 H.264 - Imágenes auxiliares

H.264 sostiene la posibilidad de codificar señales auxiliares de vídeo, teniendo las mismas

características de macro-bloques, de semántica y sintaxis en la codificación.

Se pueden adicionar señales de vídeo redundantes o señales no especificadas en la norma

H.264, de esto se vale el 3D para poder transmitir sobre MPEG-4 la señal auxiliar del mapa de

profundidad (ver figura 2.25). Esta señal debe estar debidamente señalizada según lo

establece el estándar, a este tipo de señales el estándar, las denominadas como “Auxiliary

Coded Picture”, y se definen como imágenes que suplementan a la señal primaria,

normalmente esta señal se usa como redundancia y el estándar restringe a que esta sea

monocromática.

Figura 2.25 Aplicación del codificador H.264 a las señales de imágenes auxiliares

Esta solución permite aprovechar al máximo las ventajas de H.264 y además se brinda un gran

nivel de compatibilidad con los sistemas anteriores, además de un uso eficiente en la

transmisión.

2.5.3 CODIFICACIÓN PARA EL FORMATO MVC

Esta enmienda a H.264/AVC crea la posibilidad de explotar al máximo la dependencia entre las

vistas de una señal de vídeo estereoscópico, haciendo uso de una predicción tomando en

cuenta los n cuadros presentes. Para este formato se pueden especificar dos casos, el primero

en el cual se generaliza la predicción para n vistas, y el segundo que se ha mencionado como

estéreo de alto desempeño si n=2.

Según H.264 se añade un nuevo SEI para indicar el uso de la predicción y codificación

multivista. Un codificador MVC consiste básicamente en N codificadores simples en paralelo,

cada uno de ellos utiliza estructuras de predicción temporal, donde una secuencia de imágenes

35

sucesivas es codificada como Intra (I), Predictiva (P) o Bi-predictiva (B). Para mejorar aún más

la eficiencia de la codificación, se tiende a utilizar Imágenes B jerárquicas, donde la jerarquía

de una imagen B es creada por la sucesión de imágenes B que resultan referencias para otras

imágenes B.

En MVC los conceptos de predicción para una imagen se extienden a tal punto que una imagen

que está en el proceso de codificación, puede tener tanto referencias temporales como

referencias intervista para la predicción. En la figura 2.26 se explica esta predicción MVC

considerando n=5 y un GOP de tamaño 8.

Figura 2.26 Predicción Multivista para n=5 y GOP=8 (IPP)10

Para la cámara 1, el procedimiento de predicción es idéntico al caso de una sola vista,

manteniendo así una compatibilidad con sistemas anteriores, pero para el resto de vistas se

hace uso de la referencia intervista (flechas rojas) para la predicción.

Con el fin de mejorar la eficiencia existen varias estructuras de predicción desarrolladas, dos

de las más importantes son IPP (inter-view prediction at key picture) y HBP (Hierarchical B

Pictures), IPP funciona bajo lo expuesto en la figura 2.26.

HBP explota aún más la relación inter-vista, no solo utilizando las vistas n+1 para la predicción

sino también las n+2. La figura 2.27 muestra el proceso de predicción de las diferentes

imágenes para un GOP = 8 y n=8 vistas.

10

Fuente: “3D Video Formats and Coding Methods”; Karsten Müller, Philipp Merkle, Gerhard Tech, and Thomas Wiegand; HHI; 2006 Berlín Alemania.

36

Figura 2.27 Estructura de predicción espacio temporal para MVC (HBP)

11

En la figura anterior, la S indica la cámara, mientras que la T indica el tiempo. Como en

estándares anteriores, las tres maneras de codificar una imagen son: intracodificado (I cuadro),

predecible posterior (P cuadro) y predecible bi-direccional (B cuadro). La diferencia principal es

que en este nuevo estándar hay dos dimensiones: el tiempo y la vista, tal y como se puede ver

en la figura.

En la imagen se puede observar que sólo en la cámara S0 se codifica una imagen como intra.

Esto se realiza cada 8 tramas. En las cámaras S2, S4, S6 y S7 se codifican las imágenes de

predicción a partir de la vista S0, también cada 8 tramas. Finalmente, el resto de imágenes se

predicen bidireccionalmente a partir de las imágenes próximas en tiempo y espacio (entre

vistas).

En realidad, el esquema de predicción puede llegar a ser mucho más complejo que el que

muestra la figura y por eso se han propuesto nuevas herramientas de predicción que se

puedan combinar con cualquier estructura de predicción.

2.5.4 CODIFICACIÓN PARA EL FORMATO MVD

Para formatos avanzados como este, la codificación se vuelve compleja debido a la cantidad de

información que se genera, MVD resulta una combinación de V+D y MVC. La codificación es en

principio basada en la técnica MVC original, no obstante en términos prácticos se puede hablar

de una codificación MVD.

La codificación en MVD funciona, dentro de un esquema global, de acuerdo a lo expuesto en la

figura 2.28.

11

Karsten Müller; “Representation and Coding Formats for 3D Video”; Conference Session 3DTV Content; IEEE Broadcast Technology Society; 2009 Alemania.

37

Figura 2.28 Cadena de transmisión en MVD12

Se observa que el codificador genera una única señal para la transmisión, la cual contiene la

información de las n vistas y su respectiva profundidad. El modo de predicción en este caso

varía ya que toma, adicionalmente, la información de profundidad. Este proceso de predicción

se detalla en la Figura 2.29.

Figura 2.29 Modo de predicción de imágenes para MVD

La codificación y predicción son basadas en MVC, tomando en cuenta que se van a generar

más señales del vídeo, el diagrama de bloques del codificador es más complejo.

12

“Compression for 3DTV - with special focus on MPEG standards”; Dr.-Ing. Aljoscha Smolid Fraunhofer HHI Image Processing Department; Alemania 2007.

38

2.5.5 CODIFICACIÓN PARA EL FORMATO LDV

Este formato es sin duda más preciso y de mayor calidad que los anteriores, y por ello su

codificación también resulta más compleja. Se puede aplicar el mismo MVC a estas señales,

haciendo un proceso similar al de MVD, donde las informaciones adicionales entran como

vistas extras al codificador MVC. Bajo esta premisa se puede aplicar el H.264 sin problema.

Es notorio que se puede recurrir en una complejidad mayor para los codificadores y en un flujo

de bits mucho mayor al que se pueda manejar para broadcasting. Por ello la compañía 3DTV

Solutions™ en pro de la calidad ha propuesto todo un esquema para este formato basándose

en su propio esquema de codificación LDV, donde se explota al máximo la relación entre todas

las capas y las vistas permitiendo posteriormente una efectiva reconstrucción a tasas de bits

más accesibles. Sin embargo una desventaja de esta propuesta es que requiere una gran

exactitud en los mapas de profundidad, de no ser así se generarán resultados erróneos.

2.5.6 CODIFICACIÓN PARA EL FORMATO DES

No cabe duda que para este formato se debe manejar el mismo criterio que para LDV y MVD; a

tal cantidad de información si bien es cierto MVC no se puede aplicar, ya que resultaría de gran

complejidad su implementación.

2.5.7 CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H.265

Se espera que el más reciente estándar de compresión, el códec de vídeo de alta eficiencia

(HEVC, por sus siglas en inglés), también conocido como H.265, se convierta en el estándar de

vídeo preferido en la próxima década.

Igual que todas las generaciones anteriores de tecnología de compresión de vídeo, el estándar

HEVC promete reducir el costo global de difusión y almacenamiento de activos de vídeo y al

mismo tiempo mantener o incrementar la calidad de la experiencia del espectador.

Sin sacrificar la calidad del vídeo, el HEVC puede reducir el tamaño de un archivo de vídeo o

flujo de bits hasta en un 50%, en comparación con el estándar AVC/H.264 o hasta en 75%, en

comparación con los estándares MPEG-2. El resultado es una reducción en los costos de

almacenamiento y transmisión de vídeo. De igual manera, el nuevo códec prepara el camino

para difundir contenido de más alta definición a fin de ofrecer al consumidor una experiencia

de más alta calidad.

El HEVC, diseñado para el avance de la industria de compresión de vídeo, tiene el propósito de:

Proporcionar un promedio de reducción de la tasa de bits de 50% para obtener una

calidad de vídeo fija, en comparación con el H.264.

Proporcionar mayor calidad con la misma tasa de bits.

Definir una sintaxis estándar para simplificar la implementación y maximizar la

interoperabilidad.

Seguir propiciando el trabajo en red, es decir, en flujos de transporte MPEG.

39

Figura 2.30 Compresión de tasa de bits esperada en el momento de la estandarización

Mientras que el H.264 tiene siete perfiles (conjuntos definidos de herramientas de codificación

empleados para crear un flujo de bits que cumpla con los estándares), el HEVC define

actualmente tres: Main, Main 10 y Main Still Picture. Se espera que futuras extensiones del

códec HEVC incluyan un aumento de la profundidad de bits, muestreos de color 4:2:2 y 4:4:4,

MVC (codificación de vídeo multivista) y SVC (codificación de vídeo escalable).

El perfil Main del HEVC permite una profundidad de bits de 8 bits por color, mientras que Main

10 permite 8 bits o 10 bits por color. Debido a la opción adicional de profundidad de bits, el

perfil Main 10 tiene la capacidad de ofrecer una mejor calidad de vídeo que el Main.

Finalmente, el perfil Main Still Picture permite codificar una sola imagen fija con las mismas

exigencias del perfil Main.

La especificación HEVC también define 13 niveles, que son conjuntos de restricciones que

indican el rendimiento requerido del decodificador para reproducir un flujo de bits del perfil

especificado. Los niveles están, a su vez, divididos en dos niveles: el Main, que incluye los

niveles 1 - 3.1, y el High, que incluye los niveles 4 - 6.2 y está diseñado para aplicaciones muy

exigentes. Los niveles del HEVC comparten ciertas similitudes con los del H.264, con la

diferencia fundamental de la adición de los niveles 6, 6.1 y 6.2, que definen los requerimientos

para vídeo con resolución 8K.

El principal objetivo del nuevo estándar HEVC es proporcionar las herramientas necesarias

para transmitir la cantidad más pequeña de información requerida para un determinado nivel

de calidad de vídeo.

40

Figura 2.31 Modos/macrobloque

Aunque hay varias diferencias entre los estándares H.264 y HEVC para codificar cada

macrobloque, vale la pena mencionar dos de ellas: el aumento de los modos de intra

predicción y una partición refinada para la inter predicción.

Intra predicción y codificación: En el estándar H.264 existen nueve modos de

predicción en un bloque de 4 x 4 para la intra predicción dentro de un determinado

cuadro y nueve modos de predicción en el nivel de 8 x 8. Es menor en el nivel del

bloque de 16 x 16, donde se reduce a solo cuatro modos de predicción. La intra

predicción busca calcular el estado de los bloques adyacentes en una dirección que

minimiza el error del cálculo.

En el HEVC existe una técnica similar, pero el número de modos posibles es 35 (acorde

con la complejidad adicional del códec). Esto implica la participación de un número

enormemente alto de puntos de decisión en el análisis, ya que hay casi dos veces el

número de tamaños de intra predicción espacial en el HEVC, en comparación con el

H.264, y casi cuatro veces el número de direcciones de intrapredicción espacial.

Inter predicción y codificación: El H.264 usa compensación de movimiento a partir de

bloques, el tamaño y la forma de los bloques es ajustable para buscar redundancia

temporal en los cuadros de un vídeo. La compensación de movimiento suele ser

considerada la porción más exigente del proceso de codificación. La habilidad para

implementarla de forma inteligente dentro del espacio de decisión tiene una gran

incidencia en la eficiencia del códec. El HEVC lleva esta capacidad a otro nivel.

El HEVC reemplaza la estructura de macrobloque del H.264 por un conjunto de

bloques en estructura de árbol más eficientes, pero también complejos. Cada bloque

puede ser más grande (hasta 64 x 64) que el macrobloque estándar de 16 x 16, y

puede ser dividido de forma eficiente usando un quadtree. Este sistema permite al

codificador una gran flexibilidad para usar grandes particiones cuando predicen bien y

particiones pequeñas cuando se necesitan predicciones más detalladas.

Esto permite una mayor eficiencia en la codificación, ya que se pueden codificar a bajo costo

grandes unidades de predicción (incluido el tamaño del bloque en estructura de árbol) cuando

se adaptan al contenido. Del mismo modo, cuando algunas partes del bloque necesitan

predicciones más detalladas, estas también pueden describirse de forma eficiente.

41

Con respecto al impacto del HEVC en el mundo de la compresión de vídeo, hay varios casos en

los que la mejor calidad en la proporción de la tasa de bits del HEVC tendrá incidencia en las

aplicaciones de la industria. Teniendo en cuenta que la difusión de vídeo de alta calidad

demanda enorme capacidad de red, los siguientes son algunos de los beneficios proyectados:

Utilización de más canales en redes satelitales, de cable y de televisión IPTV.

Menor costo de difusión de vídeo gestionado y no gestionado.

Mayor alcance para los operadores móviles y de televisión IPTV con restricciones de

ancho de banda.

Mejor calidad de la experiencia de los servicios de transmisión libre (OTT) de modo

que estén al mismo nivel de la difusión tradicional.

En el mercado de la transmisión móvil, la reducción de la tasa de bits del HEVC de 30 – 50%,

para alcanzar una calidad comparable al H.264, se materializa en ahorros en los costos de la

difusión en las redes. Los operadores móviles no tendrán que distribuir tantos datos para un

determinado nivel de calidad, reduciendo los costos y haciendo la reproducción más confiable,

a condición de que el hardware del dispositivo pueda decodificar sin problemas el HEVC.

El HEVC también se suma a la tendencia hacia vídeo de 4K y 8K Ultra HD de alta resolución en

el mercado dominante. Gracias a que la resolución 4K presenta cuatro veces el número de

píxeles que la 1080p, la eficiencia que brinda el HEVC hace mucho más viable la difusión de 4K.

Se espera que antes de finalizar la década, el HEVC sea ampliamente adoptado en distintas

aplicaciones, como la transferencia y difusión de vídeo, vídeo satelital, vídeo por cable, IPTV,

vídeo vigilancia, vídeo corporativo y videojuegos.

42

3 Metodología

A continuación se expondrá un estudio en el que se analizarán y se compararán las relaciones

de las tasas de bits con respecto a la calidad de la imagen en los diferentes formatos y

codificadores explicados en el capítulo anterior.

3.1 ESTUDIO DE LAS TASAS DE BITS

Dependiendo del formato elegido y del esquema de codificación, se pueden tener uno o más

flujos de bits resultantes como señal de vídeo. En esta sección se analizará la tasa de bits que

cada formato genera y una comparación entre ellos.

3.1.1 PARÁMETROS DEL ESTUDIO

A continuación se explicarán los parámetros técnicos que se van a emplear para realizar el

estudio de las tasas de bits con respecto a las configuraciones empleadas para la codificación.

3.1.1.1 Codificador H.264

La recomendación ITU-T H.264-AVC (Advanced Video Coding) representa una evolución a los

estándares existentes para la codificación de vídeo como son H.261. H.262, H.263. Este

estándar surge ante la necesidad de procesar grandes cantidades de información digital de

vídeo y más específicamente como una solución eficiente al servicio de Televisión Digital, flujo

de vídeo por IP y las video comunicaciones.

Este estándar nace en 2003, presentando flexibilidad total ante la variedad de redes y

tecnologías existentes.

En una de las revisiones al estándar, la 2005-03, se incluyen las modificaciones al estándar de

codificación para añadir cuatro nuevos perfiles referidos principalmente a las 4:2:2 y 4:4:4, con

ello se mejora la calidad del vídeo y se da la posibilidad de que el estándar se extienda hacia un

rango más amplio de aplicaciones.

Para hacer más fácil la estandarización, H.264 ha establecido desde el inicio, y en cada una de

sus enmiendas, niveles y perfiles, los cuales permiten dar una escala y una clasificación de las

diferentes tasas de flujos de bits posibles. Se han desarrollado 7 diferentes perfiles para poder

cubrir varias aplicaciones existentes, desde redes inalámbricas hasta aplicaciones de cine

digital.

Cada perfil especifica un subconjunto de velocidades de transmisión, de la sintaxis

correspondiente y de los límites a los que se deben acoplar los decodificadores existentes para

cada perfil. En la primera versión existen 3 perfiles: Perfil línea base, perfil principal, y perfil

extendido.

El perfil línea base es aplicable a servicios de vídeo-comunicaciones en tiempo real

tales como vídeo conferencias y el vídeo teléfono.

43

El perfil principal está diseñado para el almacenamiento de información digital y para

servicios de broadcasting de televisión.

El perfil extendido se aplica a los servicios multimedia sobre Internet.

Existen además tres perfiles de alto nivel (High-Profile) definidos en las extensiones de los

rangos de fidelidad para aplicaciones tales como contenido-contribución, contenido-

distribución, y edición de estudio y post-procesamiento, estos perfiles son: Alto (High), Alto 10

(High 10), Alto 4:2:2 (High 4:2:2) y Alto 4:4:4 (High 4:4:4).

El High Profile es capaz de soportar cuantización de 8 bits con esquema de muestreo

4:2:0 para aplicaciones de alta resolución.

El perfil High 10 se basa en el mismo esquema 4:2:0, pero cuantiza las muestras con 10

o más bits.

El perfil High 4:2:2 trabaja en su esquema de muestro para 10 o más bits.

En el caso del perfil High 4:4:4 se asignan 12 bits por muestra, y se utiliza la

transformada de color residual integral para codificar la señal RGB.

Además de los perfiles, se definen también los niveles para cada perfil existente. Los niveles

corresponden generalmente al poder de procesamiento y capacidad de memoria del códec,

cada nivel soporta una determinada dimensión de la imagen (SDTV, HDTV). Como se observa,

los perfiles tienen puntos en común y puntos divergentes, a continuación se hace una

descripción más detallada de los mismos para cada perfil.

3.1.1.1.1 Elementos comunes en todos los perfiles

Como ya se ha comentado con anterioridad, para todos los perfiles se realiza la predicción de

los cuadros de la misma forma, se establecen dos tipos de cuadros, los cuadros I (cuadro intra)

y los cuadros P (cuadros predicted), los cuales dependiendo si el formato requiere más tipos de

cuadros, conforman el GOP (Group of Pictures).

Otro elemento común en todos los perfiles es el CAVLC (Context-based Adaptive Variable

Length Coding), es decir una codificación de longitud variable para mejorar la entropía del

código.

3.1.1.1.2 Perfil de línea Base

Los elementos exclusivos de este perfil son:

Orden flexible para los macrobloques: No necesariamente pueden estar estos en

orden, existe un mapa el cual asigna los macrobloques a los grupos de cuadros.

Orden arbitrario de los cuadros: Puede darse la alternancia en el orden entre bloques

precedentes y posteriores.

44

Redundancia de datos: Los datos son procesados en partes, y estas porciones de datos

pertenecen a los datos del código redundante obtenido por las diferencias o

semejanzas de la tasa de codificación, en comparación con los datos comparados

previamente en la misma porción de datos.

3.1.1.1.3 Perfil Principal

Para el perfil principal existe otro tipo de cuadros, los cuadros B (cuadros bi-predicted) y se

utiliza la predicción ponderada, debido a que se aplica un factor de ponderación a las muestras

de datos de predicción de movimiento en el grupo de cuadros P ó B.

El código para mejorar la entropía en este caso es CABAC (Context-adaptive binary arithmetic

coding), el cual consigue flujos de bits 10 % más pequeños.

3.1.1.1.4 Perfil Extendido

Este perfil incluye todas las características del perfil de línea base, y añade otros elementos

como:

Porciones SP.

Porciones SI.

Particiones de Datos: Los datos codificados son ubicados en particiones de datos

separados, cada partición puede ser ubicada en una capa diferente.

Maneja cuadros B.

Maneja predicción ponderada.

3.1.1.1.5 Perfiles Altos (High-Profiles)

Este perfil incluye todas las características del perfil principal, es decir, cuadros B, predicción

ponderada, CABAC; y además tiene las siguientes características:

Tamaño del bloque adaptativo: Puede ser 4x4 o 8x8, para muestreo de luminancia.

Matrices escaladas de cuantización: Diferentes escalas de acuerdo a frecuencias

específicas asociadas con los coeficientes de la transformada en el proceso de

cuantización para optimizar la calidad subjetiva.

3.1.1.1.6 Algoritmo de codificación

El algoritmo de codificación de H.264 consta de varios procesos, los cuales son descritos de

manera detallada en la figura 3.1.

45

Figura 3.1 Diagrama de bloques de la codificación H.264

Como se observa en la figura 3.1 el codificador tiene la posibilidad de escoger entre modos de

predicción Intra e Inter para determinada región en las imágenes.

La predicción se obtiene al eliminar los bloques y filtrar la señal proveniente de las imágenes

reconstruidas. El vector de movimiento y los modos de predicción Intra pueden ser

especificados para una variedad de tamaños de bloque en la imagen, dentro del bloque de

codificación de entropía H.264 se establecen dos métodos dependiendo del perfil: CAVLC y

CABAC.

3.1.1.1.7 Predicción Intra-Frame

H.264 usa el método de predicción Intra-código en macrobloques de tipo I, para reducir la gran

cantidad de bits codificados que la señal de entrada genera por sí misma. Este tipo de

predicción es más eficiente para el caso de secuencias de vídeo con poco movimiento. El

método se basa en intentar predecir el bloque actual que se está procesando, extrapolando los

píxeles vecinos de bloques adyacentes en una serie de direcciones definidas. Para codificar un

bloque o un macro bloque bajo este Intra-codificación, un bloque de predicción se forma en el

bloque reconstruido previamente, la señal residual entre el bloque en procesamiento y el de la

predicción es codificada. Para las muestras de luminancia el bloque de predicción puede estar

formado por sub-bloques de 4x4, bloques de 8x8, o macrobloques de 16x16 en nueve

direcciones la predicción; para la crominancia13 puede darse en bloques de 8x8 para 4:2:0,

8x16 en 4:2:2, y 16x16 en 4:4:4 en cuatro direcciones de predicción; para cada macro-bloque y

para cada una de sus componentes de color se determina el modo de predicción a usarse y el

conjunto de direcciones de predicción.

13

La crominancia es el componente de la señal de vídeo que contiene las informaciones del color (R,G,B).

46

3.1.1.1.8 Predicción Inter-Frame

La predicción Inter-Frame está destinada a reducir la correlación temporal con ayuda de las

herramientas de compensación y estimación del movimiento. Como es conocido en este

estándar, la imagen puede ser dividida en macrobloques o en bloques más pequeños. Un

macrobloque de 16x16 muestras de luminancia se puede dividir en bloques más pequeños de

a lo sumo 4x4. Para el modo 16x16 existen cuatro casos: 16x16, 16x8, 8x16 y 8x8. En el modo

8x8, los casos posibles son: 8x8, 8x4, 4x8 o 4x4. El bloque más pequeño requiere una mayor

cantidad de bits para la señal, el vector de movimiento y los datos extra del tipo de partición;

de ahí que la elección del tamaño de la partición depende de las características de la señal de

vídeo de entrada. Por lo general las grandes particiones son apropiadas para áreas

homogéneas en un cuadro, y las particiones de tamaño pequeño son apropiadas para áreas

muy detalladas.

El proceso de predicción Inter de un bloque en muestreo involucra eventualmente también la

selección de las imágenes a ser usadas como imágenes de referencia de un conjunto de

imágenes decodificadas previamente almacenadas. Las imágenes de referencia para la

compensación del movimiento son almacenadas en el buffer de imágenes. En lo que se refiere

a la imagen en procesamiento, las imágenes que le preceden y le suceden a la misma se

almacenan en ese orden en el Buffer.

3.1.1.1.9 Transformación y cuantificación

Sin duda en este aspecto se ha avanzado mucho en relación a los anteriores formatos, en este

caso se usa una Transformada entera a diferencia de las DCT que antes se usaban, con ello se

reduce, además de con el filtro, el efecto visual de bloque. H.264 utiliza una transformación

adaptativa con tamaños de bloque 4x4 y 8x8 (para los perfiles High).

Para mejorar la eficiencia en la compresión, el estándar emplea una estructura jerárquica para

la transformación, en la cual los coeficientes DC (Direct Cosine), de las transformaciones 4x4

vecinas para las señales de luminancia, están agrupadas en bloques de 4x4 y transformadas

nuevamente usando la transformada Hadamard14, el estándar especifica la transformada

Hadamard 4x4 para los coeficientes DC de la luminancia y sólo para el modo Intra 16x16, y la

transformada Hadamard 2x2 para los coeficientes DC de la crominancia.

Por lo general este proceso de transformación y cuantificación requiere muchas

multiplicaciones haciéndolo muy complejo en el momento de la implementación. Para evitar

esto, se usa en H.264 la transformada Hadamard con valores enteros haciendo más rápido y

eficiente el proceso.

14

Transformada de imágenes sumamente rápida, que consiste en un desarrollo en serie de funciones básicas cuyos valores son +1 o -1, en términos matemáticos la transformada H viene dada por:

𝐻 𝑢 =1

𝑁 𝑥 𝑛 ∗ (−1) 𝑏𝑖 𝑛 ∗𝑏𝑖 𝑢 𝑡−1

𝑖=0𝑁−1𝑛=0

47

3.1.1.1.10 Proceso de codificación

Este proceso consta de una serie de pasos que establecen el orden de la codificación, con ello

también es fácilmente identificable lo que se debe hacer en recepción para decodificar las

señales.

Paso 1: Se aplica la transformada entera hacia adelante, para DCT de una entrada de

luminancia de 4x4 la formula resulta en :

𝐻 = 𝐻𝐹𝐻𝑇 𝑐𝑜𝑛 𝐻 =

𝑎 𝑎 𝑎 𝑎𝑏 𝑐 −𝑐 −𝑏𝑎 −𝑎 −𝑎 𝑎𝑐 −𝑏 𝑏 −𝑐

; siendo las variables a, b, c:

𝑎 =1

2; 𝑏 =

1

2cos

𝜋

8 ; 𝑐 =

1

2cos

3𝜋

8

Estos valores de a, b, c pueden ser simplificados por simplicidad obteniendo estos nuevos

valores:

𝑎 =1

2; 𝑏 =

2

5; 𝑐 =

1

2

La multiplicación en el proceso de transformación se evita al integrarla con la cuantización, de

esta forma se obtiene:

𝑋 = 𝐻 𝐹𝐻 𝑇 ⊗ 𝑆𝐹

𝐻 =

1 1 1 12 1 −1 −21 −1 −1 11 −2 2 −1

; 𝑆𝐹 =

𝑎2

𝑎𝑏

2𝑎2

𝑎𝑏

2𝑎𝑏

2

𝑏2

4

𝑎𝑏

2

𝑏2

4

𝑎2𝑎𝑏

2𝑎2

𝑎𝑏

2𝑎𝑏

2

𝑏2

4

𝑎𝑏

2

𝑏2

4

La multiplicación indicada en la expresión de X se la hace elemento a elemento en las matrices

señaladas.

Paso 2: Post-escalamiento y cuantización, la matriz SF (post-escalamiento) permite

obtener una señal Y transformada y cuantizada. El tamaño del paso en la cuantización

se denomina Qstep.

𝑌𝑖𝑗 = 𝑋𝑖𝑗 𝑒𝑛𝑡𝑒𝑟𝑜 𝑆𝐹𝑖𝑗

𝑄𝑠𝑡𝑒𝑝

H.264 define un total de 52 valores de paso para la cuantización.

48

3.1.1.1.11 Codificación de entropía

Anteriormente a este estándar la forma de codificar era usando VLC´s (Variable Length Codes),

en el cual la longitud de la palabra código tenía que ver con la probabilidad de ocurrencia; para

H.264 los VLC´s funcionan de forma diferente.

Todos los elementos de sintaxis a excepción de los datos residuales, son codificados con el

código Golomb Exponencial15. Para los casos residuales en cambio se usa CAVLC, y para el

perfil principal y para los altos perfiles se utiliza el CABAC, el cual presenta mayor eficiencia

pero mayor complejidad comparándolo a CAVLC.

CAVLC: Código adaptativo de longitud variable basado en el contexto, después de la

transformación y la cuantización, la probabilidad de que los coeficientes sean 0, +1 ó -1

es muy alta. CAVLC maneja los 0, +1 ó -1 de diferente modo con los niveles de los

coeficientes, el total de número de 0 y +1 ó -1 son codificados, y para otros

coeficientes se codifica con su nivel.

CABAC: Código adaptativo aritmético binario basado en el contexto, se alcanza un

buen nivel de compresión, el modelo de probabilidad para cada símbolo se basa en 3

procedimientos (ver figura 3.2), los cuales son: Binarización, modelo de contexto y

Código aritmético binario.

Figura 3.2 Procesos de CABAC

3.1.1.1.12 Tasa de transmisión.

Con todos los argumentos presentados para cada perfil, la tasa de transmisión original del

vídeo digital se reduce en cada etapa y proceso que el códec efectúa, por ejemplo el filtro de

suavizado de bloques ya disminuye en 5 a 10% la tasa binaria. Sin duda la eficiencia de este

código es superior al de estándares anteriores; y para determinados PSNR16, se tienen mejores

tasas binarias que con tecnologías anteriores, por ejemplo se obtiene una tasa binaria 50%

menor a la que se obtiene con MPEG-2, llegando a tasas de compresión de 50:1.

Dependiendo del perfil, la tasa de bits es diferente, dado que para diferentes aplicaciones se

requiere mayor calidad. Lo que respecta a este trabajo, el ámbito al que se aplica esta

15

Un código exponencial Golomb de orden k es un tipo de código universal, donde el parámetro k es un entero no negativo, para H.264 se utiliza k=0. 16

La relación a señal a ruido pico PSNR, define la relación entre la energía máxima de la señal y la del ruido, es muy usada para medir la calidad de una imagen reconstruida de la codificación.

49

codificación, es en los vídeos SD (Standar Definition) y HD (High Definition), por lo cual los

perfiles de interés son el perfil principal y los perfiles High en los niveles correspondientes. Con

estas consideraciones, las tasas binarias se encuentran entre los 64 Kbps y 150 Mbps, es

posible que existan tasas mayores para servicios como SHDTV, no aplicables a nuestro estudio.

Por otra parte, la tasa de transmisión también puede variar de acuerdo a la codificación de

entropía realizada. Por ejemplo, para una definición estándar SD las tasas de bits se enmarcan

dentro de lo expuesto en la figura 3.3.

Figura 3.3 Tasa de bits en SD

3.1.1.2 FACTOR Q

El factor de calidad o Factor Q relaciona el bitrate con el tamaño del fotograma y el

"framerate" o velocidad de reproducción de fotogramas (normalmente, 25 f.p.s. (fotogramas

por segundo)). Este factor permite saber si el flujo con que está comprimido un vídeo en

particular es acorde con el tamaño del fotograma (en píxeles) y la velocidad de reproducción

en f.p.s. No es lo mismo usar un bitrate de 900kbps para un vídeo de un iPod (con un tamaño

de fotograma de 320x240 píxeles) que para un DVD, con un tamaño de 720x576 píxeles. El

flujo es el mismo, pero se reparte entre más o menos píxeles, lo que implica que toca más o

menos calidad por píxel en cada caso.

La fórmula para el cálculo del Factor Q es la siguiente:

𝑄 =𝐵𝑖𝑡𝑟𝑎𝑡𝑒

𝑓. 𝑝. 𝑠. ∗ 𝑎𝑛𝑐𝑕𝑜 ∗ (𝑎𝑙𝑡𝑜)

Bitrate en bits por segundo (bps)

Ancho del fotograma en píxeles (px)

Alto del fotograma en píxeles (px)

Según diversas fuentes los valores que debe tener el Factor Q para el códec H.264 tienen que

estar comprendidos en el rango de 0,2-0,35. Siendo el valor 0,25 el correspondiente a una

calidad de imagen óptima con el códec H.264.

50

Para realizar el estudio de las tasas de bits se usarán 4 valores de Factor Q relacionados con la

calidad de imagen resultante:

Tabla 3.1 Factor Q

Calidad Baja Calidad Normal Calidad Óptima Calidad Alta

Factor Q 0.17 0.2193 0.25 0.2741

3.1.1.3 SISTEMA DE CODIFICACIÓN PAL

PAL es la sigla de Phase Alternating Line (en español línea alternada en fase). Es el nombre con

el que se designa al sistema de codificación empleado en la transmisión de señales de

televisión analógica en color en la mayor parte del mundo. Es de origen alemán y se utiliza en

la mayoría de los países africanos, asiáticos y europeos, además de Australia y algunos países

latinoamericanos.

El sistema PAL surgió en el año 1963, de manos del Dr. Walter Bruch en los laboratorios de

Telefunken en su intento por mejorar la calidad y reducir los defectos en los tonos de color que

presentaba el sistema NTSC17. No obstante, los conceptos fundamentales de la transmisión de

señales han sido adoptados del sistema NTSC.

El sistema de color PAL se usa habitualmente con un formato de vídeo de 625 líneas por

cuadro (un cuadro es una imagen completa, compuesta de dos campos entrelazados) y una

tasa de refresco de pantalla de 25 cuadros por segundo, entrelazadas, como ocurre por

ejemplo en las variantes PAL-B, G, H, I y N. Algunos países del Este de Europa que abandonaron

el sistema SECAM ahora emplean PAL D o K, adaptaciones para mantener algunos aspectos

técnicos de SECAM en PAL.

El sistema PAL es más robusto que el sistema NTSC. Este último puede ser técnicamente

superior en aquellos casos en los que la señal es transmitida sin variaciones de fase. Pero para

eso deberían darse unas condiciones de transmisión ideales (sin obstáculos como montes,

estructuras metálicas...) entre el emisor y el receptor. En el caso en el que haya rebotes de

señal, el sistema PAL se ha demostrado netamente superior al NTSC (del que, en realidad, es

una mejora técnica). Esa fue una razón por la cual la mayoría de los países europeos eligieron

el sistema PAL, ya que la orografía europea es mucho más compleja que la norteamericana

(todo el medio oeste es prácticamente llano). Otro motivo es que en los EE.UU. son habituales

las emisiones de carácter local y en Europa lo son las estaciones nacionales, cuyas emisoras

suelen tener un área de cobertura más extensa. En el único aspecto en el que el NTSC es

superior al PAL es en evitar la sensación de parpadeo que se puede apreciar en la zona de

visión periférica cuando se mira la TV en una pantalla grande (más de 21 pulgadas), porque la

velocidad de refresco es superior (30Hz en NTSC frente a 25Hz en PAL). De todas formas este

es un argumento relativamente nuevo ya que en los años 50 el tamaño medio de la pantalla de

un receptor de televisión era de unas 15 pulgadas, siendo además que esta frecuencia de

17

NTSC: National Television System Committee es un sistema de codificación y transmisión de Televisión en color analógico desarrollado en Estados Unidos.

51

refresco de imagen se adoptó en su origen condicionada por la frecuencia de la corriente

alterna en los países europeos, que es 50Hz frente a los 60Hz de los EE.UU.

Por todo esto hay que tener en cuenta que el formato de vídeo cambia según el sistema que

uses. En el sistema PAL se utiliza 720 x 576 píxeles y 25 fotogramas por segundo, mientras que

en el sistema NTSC se utilizan 720 x 480 píxeles y 29,9 fotogramas por segundo.

Otras diferencias que podemos encontrar entre los dos sistemas pueden ser:

Los televisores y DVD europeos con el sistema PAL son capaz de reproducir DVD o

discos con el sistema NTSC, lo que no se puede hacer a la inversa.

En el sistema PAL la imagen de un vídeo cuenta con una resolución mucho mejor.

El sistema NTSC puede producir menos fatiga en los ojos después de exponer nuestra

vista durante mucho tiempo delante de una película.

3.1.1.4 RESOLUCIONES

En la actualidad existen numerosas resoluciones o tamaño del fotograma asociados al vídeo

digital que dependen entre otras cosas del sistema de reproducción en el que se visualice el

vídeo.

En la figura 3.4 se puede observar la relación de aspecto existente entre las distintas

resoluciones más empleadas en la actualidad.

Figura 3.4 Comparación de resoluciones estándar de vídeo

En este estudio nos centraremos en las siguientes cuatro resoluciones de vídeo digital

configuradas en el sistema de codificación PAL:

Resolución estándar ó SD: El tamaño del fotograma es de 720x576 píxeles con una

velocidad de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los DVD´s

y los canales estándar de TDT (SDTV).

52

Resolución HD -TDT: El tamaño del fotograma es 1024x768 píxeles con una velocidad

de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los canales HD de

las cadenas privadas de la TDT en España (como son MEDIASET y A3MEDIA), aunque

esta resolución no está considerada alta definición.

Resolución HD ó 720p: El tamaño del fotograma es 1280x720 píxeles con una

velocidad de 25 f.p.s. para el formato PAL. Esta resolución está considerada como alta

resolución y se considera la frontera entre el HD y el SD.

Resolución FULL HD ó 1080i: El tamaño del fotograma es 1920x1080 píxeles con una

velocidad de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los

canales de TDT de alta resolución (HDTV), en los Blu-Ray y en los HD DVD.

3.1.1.5 PSNR

La relación pico a pico de señal a ruido PSNR, define la relación entre la energía máxima de la

señal y la del ruido, es muy usada para medir la calidad de una imagen reconstruida de la

codificación; la PSNR de una imagen viene dada por:

𝑃𝑆𝑁𝑅 = 10𝑙𝑜𝑔10 𝑀𝐴𝑋𝐸𝑅𝑅𝑖

2

𝑀𝑆𝐸

donde MAXERR denota el máximo valor absoluto de la diferencia de la componente de color y

MSE es el error cuadrático medio.

En esta medida, al comparar dos imágenes, el valor del PSNR varía según la similitud que hay

entre las dos imágenes, por esto, si el valor del PSNR es alto, la diferencia entre las dos

imágenes es menor y viceversa.

En la figura 3.5 se observa el valor del PSNR al comparar dos imágenes. Los colores reflejan el

valor del PSNR en cada píxel de la imagen, valores de orden creciente: rojo, amarillo, verde,

azul, negro. Siendo el rojo el valor más pequeño de PSNR, por tanto la diferencia más grande

entra las dos imágenes y el negro el valor más alto del PSNR, donde existe menor diferencia.

Figura 3.5 Valores PSNR de la comparación entre dos imágenes

53

3.2 TASA DE BITS PARA OCA

En este formato se genera un solo flujo de vídeo proveniente del DSP, que fusiona dos

imágenes en una del tipo cromático anaglífico, por lo tanto el flujo de bits resultantes estará

dentro de lo normal para vídeos de calidad SD o HD, es decir en un máximo de 4Mbps para

definición estándar y 14 Mbps para alta definición.

En la figura 3.6 se muestran cuatro fotogramas del vídeo en formato cromático anaglífico

sobre el que se ha realizado el estudio de la tasa de bits.

Figura 3.6 Fotogramas vídeo formato cromático anaglífico

A continuación se muestra el resultado del estudio de las tasas de bits asociadas a las

diferentes resoluciones:

Resolución 720x576:

Figura 3.7 Tasa de bits para un vídeo OCA de resolución SD

48

48,5

49

49,5

50

50,5

51

51,5

52

1500 2000 2500 3000

PSN

R (

Y)

(dB

)

Bitrate (kbps)

720x576

54

Resolución 1024x768:

Figura 3.8 Tasa de bits para un vídeo OCA de resolución HD-TDT

Resolución 1280x720:

Figura 3.9 Tasa de bits para un vídeo OCA de resolución 720p

50,5

51

51,5

52

52,5

53

3000 3500 4000 4500 5000 5500

PSN

R (

Y)

(dB

)

Bitrate (kbps)

1024x768

50,5

51

51,5

52

52,5

53

53,5

3500 4000 4500 5000 5500 6000 6500

PSN

R (

Y)

(dB

)

Bitrate (kbps)

1280x720

55

Resolución 1920x1080:

Figura 3.10 Tasa de bits para un vídeo OCA de resolución 1080i

3.3 TASA DE BITS PARA CSV

Si bien es cierto que para este formato existen dos posibilidades, ambas generan 2 flujos de

datos que serán transportados y transmitidos de diferente manera, por ello en este sistema se

demandan muchos recursos respecto a la tasa de bits, es decir se genera un flujo doble al

convencional, lo cual significa que para definición estándar se genera alrededor de 6 Mbps y

en alta definición 28 Mbps.

3.4 TASA DE BITS PARA CFC+

Como se estudió en el estándar de compresión, existen varios perfiles y modos de codificación

para imágenes de alta definición. En el caso de este estudio, se realiza el análisis de la tasa bits

tomando en cuenta una resolución de vídeo 720p (1280x720) y 1080i (1920x1080), el perfil

High y una configuración SbS (Side by Side). En la figura 3.11 se muestra un fotograma del

vídeo analizado.

Figura 3.11 Fotograma de vídeo en configuración SbS

53

53,2

53,4

53,6

53,8

54

54,2

54,4

8000 9000 10000 11000 12000 13000 14000 15000

PSN

R (

Y)

(dB

)

Bitrate (kbps)

1920x1080

56

La tasa de bits resultante correspondientes a 720p y 1080i se exponen a continuación en las

figuras 3.12 y 3.13 respectivamente.

Figura 3.12 Tasa de bits en 720p

Figura 3.13 Tasa de bits en 1080i

3.5 TASA DE BITS PARA V+D

El análisis en este caso se realiza para las dos posibilidades expuestas en 2.5.2.1 y 2.5.2.2. Es

importante señalar que para este y todos los formatos que incluyan profundidad (MVD, LDV,

DES), la eficiencia de las tasas de transmisión será mayor mientras los mapas de profundidad

sean mejor estimados y más exactos.

3.5.1 TASA DE BITS PARA MPEG-C PARTE 3

En este caso, el codificador trabaja en dos partes la primera obedece a una imagen normal en

2D que puede tener relación con los bitrate expuestos anteriormente dependiendo si esta

tiene alta definición o definición estándar. Y la segunda parte trabaja sobre el mapa de

profundidad asociado a la imagen normal.

45

45,5

46

46,5

47

47,5

48

48,5

49

3500 4000 4500 5000 5500 6000 6500

PSN

R (

Y)

(dB

)

Bitrate (kbps)

1280x720

49

49,5

50

50,5

51

51,5

52

52,5

8000 9000 10000 11000 12000 13000 14000 15000

PSN

R (

Y)

(dB

)

Bitrate (kbps)

1920x1080

57

Suponiendo una señal de vídeo de definición estándar promedio de entre 3 y 4 Mbps para la

señal 2D, el codificar su mapa de profundidad requeriría las tasas que detalla la figura 3.14.

Figura 3.14 Tasa de bits al codificar el mapa de profundidad

En la figura 3.14 se muestran tasas para diferentes codificaciones, incluyendo algunas

versiones del MPEG-4, si se toma en cuenta la versión más reciente se observa que para un

valor de PSNR de 46.29 dB se requieren alrededor de 105 Kbps, apenas un 3.5% de la señal 2D.

En general se observa que esta información se codifica por debajo del 20% de la información

de color, vale recalcar que se puede aplicar a vídeos en HD, obviamente sabiendo que se

tendrá mayor tasa de bits para el mapa de profundidad.

Estimando las tasas de bits para un vídeo SD, que en promedio puede tener 3.5 Mbps, y

considerando una PSNR de 42 dB (5% de la información de color), para una buena calidad:

𝑅 𝑉+𝐷 𝑆𝐷 = 𝑅𝑉 + 𝑅𝐷 = 3500𝐾𝑏𝑝𝑠 + 125𝐾𝑏𝑝𝑠 = 3625𝐾𝑏𝑝𝑠

Estimando las tasas de bits para un vídeo HD, que en promedio puede tener 12 Mbps, y

considerando una PSNR de 40 dB (8% de la información de color), para una buena calidad:

𝑅 𝑉+𝐷 𝐻𝐷 = 𝑅𝑉 + 𝑅𝐷 = 12000𝐾𝑏𝑝𝑠 + 960𝐾𝑏𝑝𝑠 = 12960𝐾𝑏𝑝𝑠

3.5.2 TASA DE BITS PARA VÍDEO AUXILIAR - H.264

En este caso se genera un solo flujo de datos, la relación entre las tasas de bits del vídeo 2D y

de la profundidad tiene una proporción similar al caso anterior, por debajo del 15%, no

obstante al usar un solo codificador, representa una optimización y un ahorro para los

sistemas de recepción. Las pruebas realizadas para este esquema se han hecho bajo la LDTV

(Low Definition TV), usando el one-seg, es decir, vídeos de tasas que van desde 250 Kbps hasta

1500 Kbps aproximadamente, con una resolución de 480x272 píxeles a 30 f.p.s., las pruebas se

han realizado variando algunos parámetros del codificador como el GOP (ver figura 3.16).

58

Figura 3.15 Vista izquierda y su correspondiente mapa de profundidad

En la figura 3.15 se representan la señal de vídeo de la vista izquierda (V_L) y el mapa de

profundidad de la vista izquierda (D_L), dependiendo del valor del parámetro GOP (Group of

Picture) asignado:

Figura 3.16 Tasa de bits al codificar el mapa de profundidad

En este caso se cuenta con un vídeo LDTV, que a 37 dB de PSNR, tiene una tasa de 1500 Kbps, y

cuyo mapa de profundidad se codifica alrededor de los 100 Kbps Con esto, se obtiene una

señal fácilmente manejable dentro de los rangos de vídeos convencionales, en general se

observa que la tasa de transmisión en este formato crecerá entre un 5 y un 10%. Para una

señal SD estimando que la profundidad toma un 7% de la información de color, la tasa oscilaría

entre los 3.21 Mbps y 4.28 Mbps.

Si bien es cierto no se presentan resultados en los casos de HD y SD, la relación de las tasas de

bits es proporcional de acuerdo al incremento de la calidad.

Es necesario señalar que es posible utilizar la extensión MVC de H.264, para codificar

profundidad, es decir haciendo que MVC trabaje con dos vistas y una de ellas sea la

información de profundidad; y por otro lado codificar la profundidad basándose en Platelet18.

En todos los casos se genera un solo flujo de bits ya que la información de color y la de

profundidad se procesan en el mismo códec H.264.

18

Algoritmo Platelet: se basa en el modelamiento de las superficies de los mapas de profundidad como funciones matemáticas definidas por intervalos.

59

3.6 TASA DE BITS PARA MVC

A continuación se detallará el uso de MVC en multivista con al menos información L+R (ver

figura 3.17), donde las exigencias son mayores pero de igual forma la calidad es superior.

Como se comentó anteriormente, el MVC es adaptable a n vistas (n>2). La mayor cantidad de

pruebas se han realizado para n=2. A continuación en la figura 3.18 se presenta los resultados

para n=2. Para el caso de 2 vistas los parámetros de prueba han sido: 480x272 de resolución,

se presentaron 235 frames a 30 f.p.s., CABAC y GOP =16.

Figura 3.17 Vista izquierda y derecha de una imagen estéreo

Figura 3.18 Tasa de bits al codificar con MVC y n=2

La figura anterior muestra tanto el resultado para MVC como para AVC Simulcast y AVC Stereo

SEI, debido a que MVC surge como una mejora para codificar 2 vistas que anteriormente se

codificaron independientemente.

De la Figura 3.18 se puede observar que a 34 dB, MVC codifica dicha secuencia a 1500 Kbps,

entonces a partir de estos datos se obtiene el Factor Q:

480𝑥272 = 130560𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒

130560𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒∗ 30

𝑓𝑟𝑎𝑚𝑒

𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 3916800

𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜

60

𝐹𝑎𝑐𝑡𝑜𝑟 𝑄 = 1500𝐾𝑏𝑖𝑡𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗

1

3916800

𝑠𝑒𝑔𝑢𝑛𝑑𝑜

𝑝í𝑥𝑒𝑙𝑒𝑠= 0.357434

𝑏𝑖𝑡𝑠

𝑝í𝑥𝑒𝑙𝑒𝑠

Con dicho Factor Q se estima la tasa de bits para una señal SD (720x576):

720𝑥576 = 414720𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒

414720𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒∗ 30

𝑓𝑟𝑎𝑚𝑒

𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 12441600

𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜

𝑅𝑆𝐷 = 12441600𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.357434

𝑏𝑖𝑡𝑠

𝑝í𝑥𝑒𝑙𝑒𝑠= 4.447𝑀𝑏𝑝𝑠

De igual forma, con el mismo Factor Q se estima la tasa de bits para una señal 1080i

(1920x1080):

1920𝑥1080 = 2073600𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒

2073600𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒∗ 30

𝑓𝑟𝑎𝑚𝑒

𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 62208000

𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜

𝑅1080 𝑖 = 62208000𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.357434

𝑏𝑖𝑡𝑠

𝑝í𝑥𝑒𝑙𝑒𝑠= 22.23𝑀𝑏𝑝𝑠

Las tasas de bits obtenidas corresponden a un nivel muy alto de calidad de imagen debido a

que el valor del Factor Q obtenido está muy por encima del valor correspondiente a una

calidad de imagen óptima (Q=0,25). Por estas razones los valores de las tasas de bits resultan

muy elevados para las resoluciones 720p y 1080i.

Tomando en cuenta otros datos experimentales, la figura 3.20 muestra las tasas en las

siguientes condiciones: n=8 vistas, 640x480, 320 cuadros presentados a 30 f.p.s., GOP=16 y

CABAC.

Figura 3.19 Imagen grabada con 8 cámaras espaciadas 20cm entre ellas

61

Figura 3.20 Tasa de bits al codificar con MVC y n=8

Por lo tanto aplicando el mismo análisis para n=8, la estimación de la tasa de bits en SD y en

HD 1080i a 37dB es:

640𝑥480 = 307200𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒

307200𝑝í𝑥𝑒𝑙𝑒𝑠

𝑓𝑟𝑎𝑚𝑒∗ 30

𝑓𝑟𝑎𝑚𝑒

𝑠𝑒𝑔𝑢𝑛𝑑𝑜= 9216000

𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜

𝐹𝑎𝑐𝑡𝑜𝑟 𝑄 = 1500𝐾𝑏𝑖𝑡𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗

1

9216000

𝑠𝑒𝑔𝑢𝑛𝑑𝑜

𝑝í𝑥𝑒𝑙𝑒𝑠= 0.1628

𝑏𝑖𝑡𝑠

𝑝í𝑥𝑒𝑙𝑒𝑠

𝑅𝑆𝐷 = 12441600𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.1628

𝑏𝑖𝑡𝑠

𝑝í𝑥𝑒𝑙𝑒𝑠= 2.025𝑀𝑏𝑝𝑠

𝑅1080 𝑖 = 62208000𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.1628

𝑏𝑖𝑡𝑠

𝑝í𝑥𝑒𝑙𝑒𝑠= 10.13𝑀𝑏𝑝𝑠

3.7 TASA DE BITS PARA MVD

El análisis aquí se basa en que se obtendría una tasa superior a la del MVC en un 5% por vista

de profundidad existente, sin embargo al considerar a la profundidad como una vista más en el

codificador y contando con algoritmos y métodos de inter-correlación más eficientes la tasa de

bits requerida no es excesiva. La figura 3.22 muestra resultados experimentales considerando

un vídeo de 1024x768, un GOP=15, CABAC, 30 cuadros por segundo, con 100 cuadros

presentados.

31

32

33

34

35

36

37

38

400 600 800 1000 1200 1400 1600

PSN

R (

Y)

(dB

)

Bitrate (Kbps)

MVC n=8

62

Figura 3.21 Fotograma de la vista izquierda con su correspondiente mapa de profundidad

Figura 3.22 Tasa de bis al codificar con MVD

3.8 TASA DE BITS PARA LDV

LDV muestra un ahorro respecto a MVD debido a que la información adicional al vídeo de color

no requiere de grandes tasas de bits, y pueden no representar un exceso sobre las tasas hasta

ahora estudiadas; LDV resulta una mejora y las pruebas realizadas siempre hacen referencia a

la comparación de los formatos MVD y LDV.

38,2

38,4

38,6

38,8

39

39,2

39,4

39,6

39,8

40

1500 1700 1900 2100 2300 2500

PSN

R (

Y)

(dB

)

Bitrate (Kbps)

MVD

63

Figura 3.23 Vistas izquierda y derecha con sus mapas de profundidad asociados

En la figura 3.24 se representan los resultados experimentales para LDV. Con los datos de la

figura 3.24, estimando la tasa de bits para un vídeo de 1024x768 a 16.67 f.p.s. a 38 dB con la

señal SD se tiene:

𝑅𝐿𝐷𝑉 = 𝐶𝑜𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑣𝑖𝑠𝑡𝑎 𝑏𝑎𝑠𝑒 + 𝑃𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑 + 𝑂𝑐𝑙. 𝐶𝑜𝑙𝑜𝑟 + 𝑂𝑐𝑙 𝑃𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑

𝑅𝑆𝐷 = 12441600𝑝í𝑥𝑒𝑙𝑒𝑠

𝑠𝑒𝑔𝑢𝑛𝑑𝑜∗ 0.05 + 0.039 + 0.025 + 0.02

𝑏𝑖𝑡𝑠

𝑝í𝑥𝑒𝑙𝑒𝑠= 1.67𝑀𝑏𝑝𝑠

Figura 3.24 Tasa de bits al codificar con LDV

3.9 TASA DE BITS PARA DES

Dado que este formato se codifica mayormente con Platelet, no se realiza un estudio de sus

tasas de bits, no obstante al codificarlo con MVC; el orden de sus tasas de bits es superior al de

V+D en un 5 ó 10%.

64

4 Análisis de transmisión

Con todo el análisis anterior, corresponde ahora estudiar el mecanismo por el cual se

transmiten y se difunden las señales concernientes a una señal de vídeo 3D. Son ya conocidas

las posibilidades existentes para crear efecto 3D, por lo tanto es importante el análisis del

proceso de transmisión para las señales involucradas. Dependiendo del formato y técnica

elegida es necesario estudiar, cómo se ajustan las técnicas del estándar con las señales que se

desean transmitir.

Figura 4.1 Arquitectura de transmisión genérica para señales de vídeo 3D

4.1 TRANSMISIÓN DE LAS SEÑALES DE 3DTV EN EL ESTÁNDAR DVB-T

4.1.1 CARACTERÍSTICAS TÉCNICAS DE LA RED TDT EN ESPAÑA

En todos los casos, la imagen, sonido y datos asociados a una emisión de TDT se codifican

digitalmente en formato MPEG-2 ó MPEG-4 (esta última para emisiones en HD), y el flujo

binario resultante de la codificación se transmite mediante una modulación de espectro digital

COFDM (Coded Orthogonal Frequency Division Multiplexing), que divide el flujo de

datos binarios en varios miles de sub-flujos.

La norma DVB-T permite canales de 6, 7 u 8 MHz de ancho de banda, define tres modos de

trabajo para el sistema de modulación COFDM, uno basado en 2048 frecuencias ortogonales,

denominado 2k, otro con 4096 frecuencias, denominado 4k, y el tercero con 6817 frecuencias,

denominado 8k. Cada modo dispone de un número de portadoras, unas para pilotos y

señalización y otras para transportar información. Las portadoras pueden modularse en QPSK19

(4-QAM20), en 16-QAM ó en 64-QAM. A su vez, cada símbolo tiene una duración fija en tiempo,

19

QPSK (Quadrature Phase Shift Keying): modulación por desplazamiento de fase, es una forma de modulación angular que consiste en hacer variar la fase de la portadora entre un número de valores discretos. 20

QAM (Quadrature Amplitude Modulation): amplitud modulada en cuadratura, es una técnica que transporta datos, mediante la modulación de la señal portadora, tanto en amplitud como en fase.

65

y se separa del siguiente símbolo por un intervalo de guarda, que puede ser 1/4, 1/8, 1/16 ó

1/32 de la longitud de símbolo.

De acuerdo con el actual Plan Técnico nacional de la TDT, en España se utiliza la banda de

frecuencias de UHF (470 – 862 MHz) con 8 MHz de ancho de banda, y el modo de trabajo 8k

(con 6817 portadoras totales, de las cuales 6048 son portadoras de datos).

Figura 4.2 Características técnicas de la red TDT en varios países europeos

El resto de características técnicas utilizadas por los operadores de las redes de difusión son las

siguientes:

Modulación: 64-QAM.

Intervalo de guarda: 1/4 de la longitud del símbolo, lo que resulta en que cada

portadora está separada en 1116 Hz y la duración del símbolo, más el intervalo de

guarda, es de 1120 microsegundos (símbolo útil de 896 microsegundos e intervalo de

guarda de 224 microsegundos).

FEC (Forward Error Correction): 2/3, es decir, 2 bits son útiles y 1 bit es de redundancia

para corregir, en recepción, los errores que se producen durante la transmisión.

Con estos parámetros, el ancho de banda efectivo es de 19,91Mbps.

4.1.2 COMPARACIÓN DE LOS ESTÁNDARES DVB-T /DVB-T2

DVB-T [Digital Video Broadcasting – Terrestrial] es el estándar para televisión digital terrestre

lanzado por DVB Project; en la actualidad cuenta con su segunda versión (DVB-T2), la que

forma parte de la familia de estándares del DVB, compuesta por DVB-T/T2 (para televisión

terrestre), DVB-S/S2 (para televisión satelital), DVB-C/C2 (para televisión satelital), DVB-H/SH

(para televisión en dispositivos móviles), DVB-IPTV (para televisión sobre redes IP), y otra larga

lista de estándares para distribución y consumo de contenidos multimedia.

Por otra parte las mejoras introducidas en T2 permiten la transmisión transparente de

contenidos estereoscópicos, usando las modulaciones de última generación (ver figura 4.3).

66

Figura 4.3 Canal DVB–T2 Con diversas modulaciones adaptadas al tipo de servicio

Las principales características técnicas del estándar DVB-T se puede apreciar en la Tabla 4.1.

Tabla 4.1 Estándar DVB - Características Técnicas

DVB-T DVB-T2

FEC Códigos convolucionales

+ Red Solomon LPDC + BCH

Tasa de codificación 1/2, 2/3, 3/4, 5/6, 7/8 1/2, 3/5, 2/3, 3/4, 4/5, 5/6

Modulación QPSK, 16QAM, 64QAM QPSK, 16QAM, 64QAM,

256QAM

Canalización 5, 6, 7, 8 MHz 1.7, 5, 6, 7, 8, 10 MHz

Intervalos de guarda 1/4, 1/8, 1/16, 1/32 1/4, 19/256, 1/8, 19/128,

1/16, 1/32, 1/128

Tamaño de FFT 2k, 8k 1k, 2k, 4k, 8k, 16k, 32k

Pilotos dispersos 8% del total 1%, 2%, 4%, 8% del total

Pilotos continuos 0.35% del total 2.6% del total

Máxima capacidad 31.66 Mbps 50.34 Mbps

4.1.3 EL ESTÁNDAR DVB 3D TV

En Julio de 2010 el proyecto DVB publicó una serie requerimientos comerciales para la

implementación exitosa de una modelo de emisión de contenidos 3D sobre TDT. En este

documento se hace énfasis en la importancia de mantener la compatibilidad con los

decodificadores (STB21) en uso, así como también con la infraestructura existente desplegada

por los operadores, de tal manera que pudiesen utilizar sus canales HD existentes para

transmitir contenidos 3D, de manera exclusiva, sin afectar a los subscriptores que no quisieran

usar dicho servicio (DVB, 2010). Se esperaba que los consumidores necesitaran un periodo de

adaptación, para tener un primer acercamiento a los nuevos contenidos y que posteriormente

demandaran mayor calidad y prestaciones.

21

STB (Set Top Box): Receptor de televisión o Decodificador, es el nombre con el que se conoce el dispositivo encargado de la recepción y opcionalmente decodificación de señal de televisión analógica o digital (DTV), para luego ser mostrada en un dispositivo de televisión.

67

Finalmente, en febrero de 2011 fue publicado el estándar oficial para la emisión de contenidos

en 3D (DVB 3DTV) (ETSI, 2011). Dicho estándar plantea la evolución de los servicios de

distribución de contenido 3D en dos fases:

Fase inicial: Está enfocada en satisfacer las necesidades actuales del mercado y

atender un número determinado de casos de uso (ver figura 4.4). Se debe contemplar

el uso, compatibilidad y no perturbación entre decodificadores (STB) 3D y no 3D

(HDTV), televisores con capacidades 3D y sin ellas (HDTV), y conectores HDMI (1.4a y

anteriores). En algunos casos el usuario deberá cambiar su televisor manualmente a

modo 3D, mientras en otros, el decodificador o el televisor deberán intentar presentar

al usuario solo la vista del ojo izquierdo.

Figura 4.4 Estándar DVB 3D TV. La parte gris muestra los aspectos tecnológicos afectados

De igual manera, los contenidos emitidos deben ser compatibles con los STB

capacitados para recibir vídeo 3D presentes en el mercado hoy o requerir a lo sumo

una actualización del software de máquina (firmware upgrade), y tener las siguientes

características: usar la codificación H.264/AVC; tener una proporción espacial (aspect

ratio) de 16:9; y usar los formatos 3D Side-by-Side (SbS) y Top-and-Bottom (TaB) de

acuerdo con las siguientes resoluciones y frecuencias:

720p ; 50 Hz TaB

720p ; 50 Hz SbS (Opcional)

1080i ; 25 Hz SbS

720p ; 59,94 / 60 Hz TaB

720p ; 59,94 / 60 Hz SbS (Opcional)

1080i ; 29,97 / 30 Hz SbS

1080p ; 23,98 / 24 Hz TaB

1080p ; 23,98 / 24 Hz SbS

68

Por otra parte, no se define ningún requerimiento especial para el sonido, pero sí una

señalización especial para indicar la disposición del cuadro de vídeo de acuerdo con las

resoluciones vistas anteriormente. Asimismo se especifica, en una adición especial al

estándar DVB, la forma en que se deben gestionar los subtítulos en una transmisión 3D

(DVB, 2011). El documento introduce el concepto de disparidad de subtítulos –

distancia entre una región de subtítulos y el segundo plano (background), que permite

determinar la ubicación de los subtítulos sobre el eje Z–, algo que puede cambiar en

cada cuadro (ver figura 4.5).

Figura 4.5 La disparidad permite identificar la distancia a la que se encuentra cada región sobre la que se dibujan subtítulos.

Segunda fase: Para las generaciones segunda y tercera de esta tecnología, se espera

la introducción de nuevos STB con la capacidad de decodificar vídeo H.264 MPEG-4

AVC (Advanced Video Coding) con la extensión MVC (Multiview Video Coding). El

nuevo formato no necesitará ser compatible con los STB actuales, pero sí con los

dispositivos compatibles con el vídeo HD estándar. Se espera también que las

transmisiones DVB 3DTV incluyan por lo menos una vista HD con la calidad original, de

manera que los dispositivos que no posean la capacidad de procesar el contenido 3D,

aún dispongan de un contenido apropiado para enseñar al usuario. En esta nueva fase

de la evolución de los servicios 3D, se abre la posibilidad de transmitir múltiples vistas

estereoscópicas a elección del usuario, aprovechando las mejoras en ancho de banda

ofrecidas por la evolución de DVB, T2 y S2.

69

4.1.4 GENERACIÓN DEL TRANSPORT STREAM Y MULTIPLEXACIÓN

Con respecto al formato, está claro que se pueden originar uno o varios flujos de señales

digitales que deben configurar el Transport Stream22(TS), estos serán posteriormente

codificados, modulados y transmitidos. DVB-T establece un tipo de empaquetamiento basado

en la norma MPEG-2, es decir ajustándose a la señalización, cabeceras y secuencias para audio

y vídeo.

De lo ya estudiado, hay algunos formatos que originan una sola señal de vídeo, que dentro de

su concepción ya viene señalizada e identificada de acuerdo a la información que corresponda,

en algunos formatos el codificador puede incluir un multiplexor, haciendo que si existen

múltiples señales estas se codifiquen y se genere un único flujo de transporte TS. En otro caso

cada señal eventualmente puede ser introducida al multiplexor final, todo esto dependerá de

la disponibilidad de equipos en el mercado y del soporte para tal cantidad de entradas.

4.1.4.1 Empaquetamiento y generación del TS con MPEG-2

MPEG-2 establece algunas normas para generar los elementos que van a ser multiplexados

posteriormente, tanto para audio como para vídeo, MPEG-2 establece que el flujo de

transporte TS va acompañado de su audio respectivo, por lo tanto en el caso de señales

múltiples de vídeo como es en la 3DTV se puede duplicar el audio o ahorrar ese espacio.

Parte importante de la cabecera del TS es el PID (Packet Identification), los paquetes de TS

pueden traer información de programas diferentes, además de datos para la reconstrucción de

la información. Aparece este campo de 13 bits que permite la distinción de paquetes de

diferentes Elementary Streams (ES). De los 213 valores posibles, hay 17 reservados para

funciones especiales. Esto permite 8175 valores que son asignables a todos los otros ES que

forman el TS. El multiplexor tiene que garantizar que cada ES tenga un único PID. La normativa

MPEG no especifica qué valores de PID se tienen que dar a los ES (a excepción de los 17

mencionados). Con la cabecera incluida el Transport Stream se estructura como lo detalla la

figura 4.6.

Figura 4.6 Generación del Transport-Stream

22

Transport Stream es un protocolo de comunicación para audio, vídeo y datos especificado en los estándares de MPEG-2. Los flujos binarios de vídeo y audio de cada programa se comprimen independientemente formando cada uno de ellos una “corriente elemental”

70

El Múltiplex MPEG-2 Transport Stream puede contener varios programas audiovisuales, cada

uno de los cuales está compuesto por uno o varios flujos elementales PES23 distribuidos en

paquetes de transporte. Estos paquetes a su vez están marcados con un PID que identifica a

qué flujo elemental pertenecen.

Sin embargo, para que el decodificador pueda recuperar completamente un programa a través

de los valores de los PID de los paquetes correspondientes, es necesario incluir información

adicional dentro del flujo de transporte que relacione estos PID con los programas a que

pertenecen. Tal información se denomina “Información Específica de los Programas” o

“Program Specific Information” (PSI).

Esta “Información Específica de los Programas (PSI)”, definida por MPEG-2 para la Capa de

Sistema (ISO/IEC 13818-1), comprende la inclusión dentro del flujo de transporte, de 4 tipos de

tablas:

Program Association Table (PAT): Esta tabla, de inclusión obligatoria, es transportada

por los paquetes con PID=0x0000 y contiene una lista completa de todos los

programas disponibles en el Transport Stream.

Contitional Access Table (CAT): Esta tabla debe estar presente si al menos un

programa del múltiplex es de acceso condicional. Se transporta por los paquetes con

PID=0x0001, y proporciona detalles de los sistemas de cifrado empleados, así como los

valores de los PID de los paquetes de transporte que contienen la información del

control de acceso condicional.

Program Map Table (PMT): Cada programa audiovisual incluido en un Transport

Stream tiene una tabla PMT asociada con él. Dicha tabla proporciona detalles acerca

del programa y de los flujos elementales que comprende.

La “Información del Servicio” o “Service Information” (SI), en sistemas DVB (ETS 300 468)

incluye, además, otros 4 tipos de tablas de inserción obligatoria dentro del Transport Stream y

3 tipos de tablas opcionales:

1) Obligatorias:

Network Information Table (NIT): Esta tabla proporciona información acerca de la red

física usada para transmitir el “Transport Stream”, como por ejemplo: frecuencias del

canal, detalles del transpondedor del satélite, características de modulación, detalles

de redes alternativas disponibles, etc. Se transporta por los paquetes identificados con

PID=0x0010.

Service Description Table (SDT): Contiene datos que describen los servicios en el

sistema, como por ejemplo: nombres de los servicios, nombre del proveedor y otros

23

PES (Packed Elementary Streams): Los flujos comprimidos elementales de Vídeo y Audio se empaquetan formando los flujos elementales empaquetados PES de vídeo y audio respectivamente. Los paquetes de los flujos PES son de longitud variable.

71

parámetros asociados a cada servicio de un mismo múltiplex. Se transporta por

paquetes identificados con PID=0x0011.

Event Information Table (EIT): Se utiliza para transmitir información relativa a los

acontecimientos en curso o futuros en el múltiplex MPEG recibido en la actualidad, y

eventualmente sobre otros múltiplex MPEG, tal como: denominación, hora de

comienzo, duración, etc. Se transporta por los paquetes identificados con PID=0x0012.

Time & Date Table (TDT): Esta tabla proporciona información relativa a la hora y fecha

del momento, y se utiliza para poner en hora el reloj interno del receptor. La citada

información se incluye en una tabla específica debido a las frecuentes actualizaciones

de la misma. Se transporta por paquetes identificados mediante PID=0x0014.

2) Opcionales:

Bouquet Association Table (BAT): El término “bouquet” se usa para referirse a una

“Colección de servicios comercializados como entidad única”. Las tablas BAT

proporcionan información relativa a los “bouquets”. Además de informar del nombre

del bouquet aportan la lista de los servicios disponibles en cada bouquet. Se

transportan por paquetes identificados con PID=0x011.

Running Status Table (RST): Las tablas RST actualizan de forma rápida la información

relativa a la situación de un acontecimiento (que está o no sucediendo). Se transmiten

una sola vez y no de forma repetitiva por los paquetes identificados mediante

PID=0x0013.

Time Offset Table (TOT): Proporciona información relativa a la fecha y hora real así

como a la diferencia horaria local (“local time offset”). Se actualiza frecuentemente,

siendo transmitida por paquetes identificados con PID=0x0014 (como las TDT).

Stuffing Tables (ST): Estas tablas de “relleno” se emplean para invalidar tablas que ya

no sirven. Por ello usan paquetes que comparten valores de PID con otros tipos de

tablas: 0x0010; 0x0011; 0x0012 0x0013 y 0x0014.

Cada tabla está constituida, según su importancia, por una o varias secciones (256 como

máximo, con una longitud máxima de 1.024 bytes excepto para tablas tipo “Private” y “EIT”

que pueden alcanzar los 4.096 bytes). Dichas secciones están distribuidas a lo largo de una

serie de paquetes de transporte identificados con un PID común.

4.1.4.2 Multiplexación MPEG-2 para señales 3DTV que contienen múltiples

informaciones

De lo ya estudiado está claro que en ciertos formatos, al utilizar más de un codificador se

genera más de un flujo de de datos, y por ello estos deben ser obligatoriamente multiplexados

si se quiere que se transmitan bajo la misma plataforma.

72

Existen otros formatos también que, si bien es cierto generan múltiples señales, también

pueden contener la etapa de multiplexación en el propio codificador, ya que agregan allí su

señalización y sincronía correspondiente, lo cual sería recuperado sin problema por el

correspondiente decodificador. El formato que utiliza este tipo de multiplexación es el de Dual

Streaming, considerando que los flujos pueden ser de señales L+R o de Vídeo y profundidad.

Con esto los formatos que después del codificador generan múltiples flujos son:

Dual Streaming L+R.

MPEG-C parte 3.

MVC sin multiplexación en el codificador (típicamente para n=2).

En estos casos la multiplexación se estructura como lo detalla la figura 4.7.

Figura 4.7 Multiplexación de vistas en dual Streaming

Se observa que las vistas izquierda y derecha se alternan en el MUX y se los provee de sus PID

y PMT (Program Map Tables) para identificarlos y poder demultiplexarlos en recepción; el

audio se multiplexa después del vídeo izquierdo o si se requiere cada vídeo puede ir

acompañado del audio de forma idéntica al TS de MPEG-2 para televisión 2D.

Para el caso de MPEG-C parte 3 el esquema es idéntico y el Transport Stream se estructura de

forma similar (ver figura 4.8), la diferencia radica en que no se usa vídeo derecho sino

profundidad lo que hace que el codificador genere un cuadro de menos bitrate y el Mux

alterne, entre cuadros L de mayor tamaño que los de profundidad, y los propios cuadros

“depth”.

Figura 4.8 Multiplexación de vistas izquierda + profundidad

Para MVC el multiplexor generaliza su aplicación a n vistas, aunque lo más típico sean 2,

obteniendo mejor compresión por la relación intervista. Dado el panorama actual de la TDT, es

recomendable que para señales 3D se ofrezca al multiplexor de audio, vídeo y datos un solo

flujo para no alterar la arquitectura actual.

73

Actualmente la multiplexación se usa estableciendo grupos de entrada por canal de TV (1

vídeo, 1 audio, datos). En nuestro caso, si la 3DTV requiere más de una señal de vídeo para la

entrada se tienen dos opciones: un Multiplexor previo para entregar un solo flujo (ver figura

4.9), u ocupar un solo Multiplexor antes de la transmisión ocupando el espacio que ocuparían

varios programas de TV (ver figura 4.10).

Figura 4.9 Multiplexación de canales 2D y 3D con un solo Multiplexor

Figura 4.10 Multiplexación de canales 2D y 3D con varios Multiplexores

4.1.5 CODIFICACIÓN MODULACIÓN Y TRANSMISIÓN DE LA SEÑAL DE TV-3D

Una vez generado el TS final, el estándar DVB-T establece una serie de procedimientos hasta

llegar a la modulación y difusión de la señal digital.

La secuencia de etapas después del TS son: codificación de canal, modulación y etapa de

radiofrecuencia o difusión. La codificación de canal (RS 204-188-8), y modulación con su

respectivo FEC se realiza de forma idéntica a las señales monoscópicas, así como la generación

de tramas OFDM para su transmisión.

Está claro que el tipo de modulación, tasa de FEC, relación entre el tiempo útil y tiempo de

guarda, al repercutir directamente con la tasa de bits que se soporta, deben ser analizados en

que combinación se pueden cumplir los requerimientos que una señal 3DTV exige. A

continuación se analiza las características del DVB-T que concuerdan con los requerimientos de

la señal 3D para sus distintos formatos.

74

4.1.5.1 Estructura de trama OFDM

La señal transmitida se organiza en tramas. Cada trama tiene una duración TF y consiste de 68

símbolos OFDM. Cuatro tramas constituyen una súper-trama. Cada símbolo está constituido

por un conjunto de K=6817 portadoras en el modo 8K, o K=1705 portadoras en el modo 2K, y

es transmitido con una duración TS. Se compone de dos partes: una parte útil TU y un intervalo

de guarda de duración D. El intervalo de guarda consiste en una continuación cíclica de la parte

útil y se inserta previa a ella. Hay cuatro valores posibles para el intervalo de guarda que se

verán más adelante.

A continuación veremos una serie de tablas con parámetros de modulación para canales de 8

MHz, según la norma DVB-T:

Tabla 4.2 Número de portadoras

Duración de la parte de símbolo para los intervalos de guarda permitidos en canales de 8MHz:

Tabla 4.3 Intervalos de guarda

En la tabla 4.4 se pueden observar las tasas de transmisión asociadas a una determinada

modulación, intervalo de guarda y FEC:

Tabla 4.4 Tasas de transmisión en DVB-T (en Mbps)

75

Todo depende de la tasa que ocupen las señales de TV, es decir, de qué calidad se requiere,

para según eso acomodar las técnicas y obtener valores coherentes según la tabla 4.4; y con

ello lograr utilizar los 8 MHz de forma eficiente.

4.1.5.2 Señales de TV-3D en las tramas OFDM

De acuerdo a las características antes expuestas compete ahora analizar la relación entre las

mismas y las señales de 3DTV, evidentemente esta información no puede ser tratada

simplemente como una SDTV ó HDTV. Entonces corresponde analizar las tasas de bits que cada

formato requiere y así poder estimar el valor del ancho de banda que va a ser utilizado.

En la Tabla 4.5 se muestra un resumen de las tasas de transmisión de los diferentes formatos

de 3DTV.

Tabla 4.5 Tasas de transmisión en DVB-T para los formatos de 3DTV

FORMATO BIT-RATE 2D BIT-RATE 3D % PSNR

OCA

SD: 3.5 Mbps SD: 4 Mbps 14.28 36

HD: 7 Mbps HD:8 Mbps 14.28 42

CSV

SD: 4 Mbps SD: 4 Mbps x 2 = 8 Mbps 100 36

HD: 8 Mbps HD: 8 Mbps x 2 = 16 Mbps 100 42

CFC+ HD: 8 Mbps HD: 8 Mbps 0 42

V+D

MPEG-C PARTE 3

SD: 3.5 Mbps SD: 3.625 Mbps 10 42

HD: 12 Mbps HD: 12.960 Mbps 10 40

AUX VIDEO H.264

SD: 4 Mbps SD: 4.28 Mbps 7 40

HD: 8 Mbps HD: 8.56 Mbps 7 40

MVC SD: 3 Mbps SD: 3.729 Mbps 8 40

MVD SD: 4 Mbps SD: 4.635 Mbps 15 40

LDV SD: 3 Mbps SD: 3.44 Mbps 8.7 42

DES SD: 4 Mbps SD: 4.52 Mbps 8.8 42

Es decir, las señales 3D con formatos de calidad aumentan la tasa de un canal de TV-2D entre

un 10 y un 15%. Por otro lado, los formatos más compatibles y más fáciles de implementar

pueden llegar a incrementar en un 100% los requerimientos.

Con todo esto, si queremos introducir en una trama OFDM una señal de 3DTV dependerá del

formato, de la calidad y del vídeo mismo. Por ejemplo usando 64 QAM con FEC de 2/3, que es

lo que típicamente se utiliza en la TDT en España, tendremos una trama capaz de soportar

19.91 Mbps. Así se puede variar los parámetros y, dependiendo del formato, adecuar a la

trama a la señal de vídeo 3D.

76

4.2 TRANSMISIÓN DE LAS SEÑALES 3DTV SOBRE IPTV

4.2.1 CONCEPTOS SOBRE IPTV

El término IPTV (Internet Protocol Television) hace referencia a sistemas de distribución de

señales de televisión o vídeo utilizando conexiones de banda ancha sobre el protocolo IP.

Desde el punto de vista del usuario, un sistema IPTV funciona de igual forma que los servicios

de pago por visión (satélite, cable); pero para el proveedor de servicio, IPTV incluye la

adquisición, procesado y envío seguro de contenidos audiovisuales sobre una infraestructura

de red basada en IP. Las características principales de los sistemas IPTV son:

Soporte para la televisión interactiva. Los sistemas IPTV soportan el uso de

aplicaciones interactivas como la guía electrónica de programación, juegos

interactivos, posibilidad de cambiar los ángulos de visión o navegar por Internet a alta

velocidad.

Personalización. Los sistemas IPTV permiten personalizar los hábitos televisivos, los

usuarios deciden qué es lo que quieren ver y cuándo lo quieren ver.

Accesible en varios dispositivos. Los servicios IPTV no están limitados a su uso en

televisores, los clientes pueden utilizar ordenadores personales y dispositivos móviles

para acceder a los distintos servicios.

Poco ancho de banda requerido. En lugar de realizar el envío de todos los canales

disponibles a cada usuario, las tecnologías IPTV permiten enviar sólo el canal que el

usuario ha solicitado.

Posibilidad de integrar el servicio de televisión con otros servicios basados en IP.

Como los servicios de voz sobre IP o navegar por Internet a alta velocidad.

El término IPTV se suele confundir con el término Televisión por Internet o Internet TV.

Aunque ambos entornos utilizan la tecnología IP para realizar el envío de contenidos, hay

varias diferencias entre ellos.

La principal diferencia es que la Televisión por Internet utiliza la red pública Internet para la

transmisión de datos, mientras que IPTV utiliza redes privadas. Estas redes tienen una

extensión geográfica limitada y suelen ser propiedad del proveedor de servicios, lo que

permite construir los sistemas de forma que den soporte a servicios de alta definición. El

problema de la transmisión de servicios a través de Internet es que, al tratarse de una red

pública, no se tiene control sobre los elementos de la red y, por tanto, no se puede garantizar

la disponibilidad de los servicios ni una calidad mínima de los mismos.

Otra diferencia entre ambas es el mecanismo de acceso a los contenidos. En el caso de

Internet es necesario disponer de un PC, mientras que en los sistemas IPTV se suele utilizar un

decodificador (set-top box) para acceder a los distintos servicios.

77

4.2.1.1 Estructura general de un sistema IPTV

A lo largo de los últimos años se han desarrollado varias arquitecturas de red para

proporcionar servicios IPTV, siendo posible su implementación en redes de fibra óptica, redes

ASDL, redes inalámbricas e incluso sobre Internet.

A menudo se suministra junto con el servicio de conexión a Internet, proporcionado por un

operador de banda ancha sobre la misma infraestructura, pero con un ancho de banda

reservado a tal propósito. Por ello, se requiere un mínimo de al menos unos 4 Mbps para

poder recibir la señal de TV comprimida según el formato MPEG-2 o MPEG-4, algo que se

consigue fácilmente con los estándares de ADSL24, como son ADSL2 y ADSL2+, que pueden

llegar hasta 20 Mbps en bajada, sobre el bucle de abonado, si la distancia a la central

telefónica que provee el servicio no es muy elevada.

La capacidad estimada para servicios IPTV, utilizando tecnología MPEG-4 para la

codificación/compresión de la señal de vídeo, está entre 1 y 2 Mbps por cada canal de

definición estándar (SDTV) y 7-8 Mbps por cada canal de alta definición (HDTV). Para dos

canales simultáneos el ancho de banda bruto resultante es de 2-4 Mbps para un servicio

básico25 ó 8-10 Mbps si se incluye un canal HDTV. En la tabla 4.6 se observan los anchos de

banda promedio para los formatos MPEG-2 y MPEG-4.

Tabla 4.6 Anchos de banda referenciales requeridos para IPTV

MPEG-2 MPEG-4

Standard Definition (SD) 4 Mbps 1,5 Mbps

High Definition (HD) 15 Mbps 8 Mbps

La modalidad de oferta de IPTV puede ser de difusión en directo (streaming), igual que la

actual televisión digital TDT, de descarga bajo demanda (VoD26) o de Pay Per View27, y se

puede ver, bien en un PC o en un televisor convencional, al que se le ha colocado un

decodificador (set top-box) que descomprime y decodifica la señal de vídeo para presentársela

al usuario.

24

ADSL (Asymmetric Digital Subscriber Line): Tecnología de acceso a Internet de banda ancha que utiliza la línea telefónica convencional para realizar la transmisión de los datos. 25

Paquete Básico (2 canales SDTV) 26

VoD (Video on Demand): El vídeo bajo demanda es el envío de programación de vídeo a los usuarios en el momento en que lo soliciten. Suele incluir funciones de pausa, avance y retroceso rápido de contenidos. 27

Pay Per View (PPV): Canales de pago por visión

78

Figura 4.11 Arquitectura general de la red IPTV

4.2.2 TÉCNICAS DE TRANSMISIÓN EN SISTEMAS IPTV

El envío de streams de vídeo sobre redes IP se puede realizar utilizando tres técnicas distintas

denominadas broadcast, unicast y multicast.

4.2.2.1 Unicast

La técnica de transmisión unicast realiza el envío de contenidos creando conexiones

individuales entre el centro de datos y el decodificador de usuario. Por ejemplo, si cuatro

usuarios desean acceder al mismo canal, se deben crear cuatro conexiones punto a punto

desde el centro de datos hasta el decodificador de cada usuario a través de la red IP. Desde el

punto de vista técnico es el mecanismo más sencillo de implementar, pero presenta el

inconveniente de que no realiza un uso efectivo del ancho de banda de la red.

Como se puede observar en la figura 4.12, cuando varios usuarios acceden al mismo canal a la

vez, se crean tantas conexiones dedicadas a través de la red como usuarios desean acceder al

canal. En este ejemplo el servidor necesita enviar cuatro streams distintos para realizar el

envío del canal desde el centro de datos al decodificador de cada usuario. Las conexiones

creadas se extienden sobre dos oficinas regionales con dos conexiones dedicadas entre el

centro de datos y cada oficina. También se establecen conexiones entre los routers de las

oficinas regionales y las puertas de enlace residenciales instaladas en los domicilios de los

abonados.

En los entornos de tipo unicast, donde se necesitan muchas conexiones IP, es necesario

disponer de enlaces de red de alta velocidad. Este método de transporte IP se suele utilizar en

aplicaciones de vídeo bajo demanda donde cada usuario conectado recibe un stream único.

79

Figura 4.12 Transmisión unicast

4.2.2.2 Broadcast

Las redes IP soportan la funcionalidad denominada broadcast donde se emite el mismo stream

de vídeo a todos los dispositivos de acceso conectados a la red, independientemente de si han

solicitado o no el canal. El inconveniente de este modo de envío es que los dispositivos

receptores pierden tiempo procesando paquetes de vídeo no solicitados. Otro inconveniente

que hace inadecuado el uso de broadcast en aplicaciones IPTV es que esta técnica de

comunicación no soporta el enrutado. Como las redes IPTV se pueden extender utilizando

routers el uso de broadcast es prohibitivo, la red y los dispositivos receptores se saturarían si

se envían todos los canales a todos los dispositivos receptores.

4.2.2.3 Multicast

El término multicast se refiere a la transmisión de una señal de vídeo única a varios usuarios de

forma simultánea. Como ocurre con la técnica broadcast, todos los usuarios reciben la misma

señal al mismo tiempo, pero en este caso no hay un stream distinto para cada receptor.

La ventaja más significativa de su uso en redes IP es la reducción del ancho de banda necesario

para transmitir contenidos de alta calidad a través de la red. Esto es así porque sólo se envía

un stream a cada router, que se encarga de realizar una copia para cada dispositivo receptor

conectado. También se reduce la carga de procesado del servidor de contenidos ya que sólo

transmite una copia del stream al router de distribución.

80

Figura 4.13 Transmisión multicast

Como se puede observar en la figura 4.13, con el uso de la técnica multicast sólo se envía una

copia del canal sobre cada enlace de red, duplicando el stream cuando los enlaces de red se

dividen. Este método de transmisión reduce considerablemente el número de conexiones

necesarias para el envío de contenidos. La técnica multicast se suele utilizar para emitir

programaciones IPTV en vivo y es una técnica eficiente para su uso en infraestructuras IPTV.

Sin embargo, la transmisión multicast presenta algunos inconvenientes:

No es posible realizar las acciones de rebobinar, pausa o avance rápido de los

contenidos.

Incrementa la carga de trabajo y procesado de los routers. Los routers deben realizar

copias de los streams para enviarlos a todos los clientes conectados.

Todos los componentes, desde la fuente de contenidos hasta el decodificador de

usuario, deben soportar la tecnología multicast.

81

4.3 RESULTADOS DE LAS PRUEBAS DE TRANSMISIÓN

A continuación se expondrá los resultados obtenidos en las pruebas de transmisión de señales

3D tanto en el estándar DVB-T como en IPTV.

Las pruebas de transmisión se han realizado bajo el estándar DVB 3D, más concretamente, con

las características de la fase inicial en los servicios de distribución de contenidos 3D

comentados en el punto 4.1.3.

Se han utilizado dos vídeos 3D con formato CFC+ con la configuración SbS y TaB, con una

proporción espacial de 16:9 y usando la codificación H.264/AVC. En las figuras 4.14 y 4.15 se

muestran los fotogramas de ambos vídeos.

Figura 4.14 Fotograma del vídeo en configuración SbS

Figura 4.15 Fotograma del vídeo en configuración TaB

Estos dos vídeos se han codificados con las siguientes resoluciones y frecuencias, tal como

viene detallado en el estándar DVB 3D:

720p @ 50 Hz TaB

720p @ 50 Hz SbS

1080i @ 25 Hz SbS

720p @ 59,94 / 60 Hz TaB

720p @ 59,94 / 60 Hz SbS

82

1080i @ 29,97 / 30 Hz SbS

1080p @ 23,98 / 24 Hz TaB

1080p @ 23,98 / 24 Hz SbS

La codificación de los vídeos se ha realizado con una calidad alta, es decir, con un Factor Q =

0.2741, obteniendo una tasa de bits de 14209 Kbps para la resolución 1080i y 6315 Kbps para

la resolución 720p.

4.3.1 TRANSMISIÓN DE 3DTV EN EL ESTÁNDAR DVB-T

Los parámetros DVB-T que se han utilizado en la transmisión son los característicos de la

región de España, emitiendo en el canal 21, es decir:

Tabla 4.7 Parámetros DVB-T utilizados para las pruebas de transmisión

DVB-T

Número de canal 21

Frecuencia 474 MHz

Tasa de codificación 2/3

Modulación 64QAM

Ancho de banda 8 MHz

Intervalos de guarda 1/4

Modo de transmisión 8k

Ancho de banda efectivo 19.91 Mbps

El ancho de banda efectivo del TS es 19.91 Mbps y las tasas de bits de los vídeos es 14209 Kbps

y 6315 Kbps para 1080i y 720p respectivamente. Para crear la trama de transporte que se va a

emitir, en el multiplexor se pueden incluir los vídeos de la siguiente forma:

Un solo servicio con un vídeo de resolución 1080i.

Dos servicios, cada uno con un vídeo de resolución 720p.

Dos servicios: uno con un vídeo de resolución 1080i y el otro con un vídeo de

resolución 720p.

4.3.1.1 Medidas de nivel/calidad de la señal COFDM

Antes de mostrar los resultados obtenidos hay definir una serie de parámetros utilizados para

realizar las medidas:

BER: Tasa de bits erróneos. Es la relación que existe entre en nº de bits erróneos y el

número de bits transmitidos. Hay dos tipos de BER, el CBER (antes de FEC) y el VBER

(después de FEC).

83

Figura 4.16 Tipos de BER

MER: Tasa de errores de modulación. Es la representación numérica del vector de

error, que es la diferencia entre la señal patrón que debería recibirse y la señal con

errores que realmente recibe.

C/N: Relación portadora a ruido. Es una expresión del ruido agregado por el

modulador en los amplificadores y otros componentes activos de los sistemas de

distribución.

A continuación se muestran los valores mínimos requeridos para la correcta recepción de

servicios de difusión de TV en Alta Definición:

Tabla 4.8 Valores para la correcta recepción28

DVB-T

POTENCIA 45 – 70 dBµV

C/N ≥ 25 dB

MER > 20 dB

CBER < 1x10-2

VBER < 2x10-4

Una vez explicados los parámetros utilizados para medir la calidad de la señal OFDM, se

procede a mostrar los resultados obtenidos al hacer la medición en la toma de antena:

1) Con la configuración TaB:

Tabla 4.9 Resultados de las medidas de calidad de de la señal COFDM con la configuración TaB

TaB

RESOLUCIÓN/ FRECUENCIA

720p 50Hz

720p 59.94Hz

1080p 23.98Hz

POTENCIA (dBµV) 51.2 51.4 50.2

C/N (dB) 31.4 31.3 33.5

MER (dB) 27 27.1 26.8

CBER 1.2x10-4 1.5x10-4 1.9x10-4

VBER < 10-7 < 10-7 < 10-7

28

Fuente: “Manual de Buenas Prácticas Cadena de Recepción”. Grupo de Calidad del Servicio de Televisión Digital Terrestre. Subdirección General de Infraestructuras y Normativa Técnica.

84

2) Con la configuración SbS:

Tabla 4.10 Resultados de las medidas de calidad de de la señal COFDM con la configuración SbS

SbS

RESOLUCIÓN/ FRECUENCIA

720p 50Hz

720p 59.94Hz

1080i 25Hz

1080p 23.98Hz

1080i 29.97Hz

POTENCIA (dBµV) 51.5 51.4 49.8 51.4 51.3

C/N (dB) 31.2 31 25.3 31 30.8

MER (dB) 27 27.3 20.9 26.9 27.1

CBER 1.7x10-4 1.4x10-4 1.2x10-4 2.2x10-4 1.2x10-4

VBER < 10-7 < 10-7 < 10-7 < 10-7 < 10-7

Como se puede comprobar en las tablas 4.9 y 4.10, los valores obtenidos para los vídeos en las

dos configuraciones y en todas las resoluciones/frecuencias, están dentro de los valores

admitidos para una correcta recepción.

También se comprueba a nivel visual que todas las configuraciones medidas tienen una

perfecta recepción y se pueden visualizar correctamente en un televisor 3D.

4.3.1.2 ANÁLISIS DE LOS TRANSPORT STREAMS (TS)

En esta sección se mostrará el contenido de los Transport Streams generados tras la

multiplexación y antes de ser transmitidos, los cuáles, serán comparados con los Transport

Streams obtenidos en el receptor.

En la tabla 4.11 se muestran las tasas de bits de los Transport Streams transmitidos y recibidos

para la configuración TaB. También se muestra el número de paquetes erróneos seguidos en el

caso de los TS recibidos. Por último se detalla el porcentaje de la tasa de bits asociado a cada

tabla, vídeo, audio y paquetes de relleno:

85

Tabla 4.11 TS transmitidos y recibidos en la configuración TaB

Transmitidos Recibidos

720p 50Hz

720p 59.94Hz

1080p 23.98Hz

720p 50Hz

720p 59.94Hz

1080p 23.98Hz

Bitrate multiplex (bps) 19905882 19905882 19905882 19905814 19905814 19905826

Continuity errors 0 0 0 6 5 7

TEI errors 0 0 0 0 0 0

PAT (PID: 0x0000) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%

CAT (PID: 0x0001) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%

PMT (PID: 0x0064) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%

NIT (PID: 0x0010) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

SDT (PID: 0x0011) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

VIDEO (PID: 0x0000) 18.63% 30.20% 46.68% 18.54% 29.09% 40.64%

AUDIO (PID: 0x0000) 0.97% 0.95% 1.40% 0.97% 0.95% 1.42%

NULL (PID: 0x1FFF) 80.35% 68.80% 51.86% 80.43% 69.91% 57.89%

En la tabla 4.12 se exponen las tasas de bits de los Transport Streams transmitidos y recibidos

para la configuración SbS y una resolución de 720p.

Tabla 4.12 TS transmitidos y recibidos en la configuración SbS con resolución 720p

Transmitidos Recibidos

720p 50Hz

720p 59.94Hz

720p 50Hz

720p 59.94Hz

Bitrate multiplex (bps) 19905882 19905882 19905815 19905823

Continuity errors 0 0 15 7

TEI errors 0 0 0 0

PAT (PID: 0x0000) 0.02% 0.02% 0.02% 0.02%

CAT (PID: 0x0001) 0.02% 0.02% 0.02% 0.02%

PMT (PID: 0x0064) 0.02% 0.02% 0.02% 0.02%

NIT (PID: 0x0010) 0.00% 0.00% 0.00% 0.00%

SDT (PID: 0x0011) 0.00% 0.00% 0.00% 0.00%

VIDEO (PID: 0x0000) 29.20% 67.23% 30.17% 67.63%

AUDIO (PID: 0x0000) 0.95% 0.95% 0.95% 0.95%

NULL (PID: 0x1FFF) 69.80% 31.77% 68.82% 31.37%

En la tabla 4.13 se exponen las tasas de bits de los Transport Streams transmitidos y recibidos

para la configuración SbS con una resolución de 1080i y 1080p.

86

Tabla 4.13 TS transmitidos y recibidos en la configuración SbS con resolución 1080i y 1080p

Transmitidos Recibidos

1080i 25Hz

1080p 23.98Hz

1080i 29.97Hz

1080i 25Hz

1080p 23.98Hz

1080i 29.97Hz

Bitrate multiplex (bps) 19905882 19905882 19905882 19905834 19905816 19905822

Continuity errors 0 0 0 7 8 7

TEI errors 0 0 0 0 0 0

PAT (PID: 0x0000) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%

CAT (PID: 0x0001) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%

PMT (PID: 0x0064) 0.02% 0.02% 0.02% 0.02% 0.02% 0.02%

NIT (PID: 0x0010) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

SDT (PID: 0x0011) 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

VIDEO (PID: 0x0000) 54.76% 67.72% 69.47% 67.61% 67.15% 56.10%

AUDIO (PID: 0x0000) 0.95% 0.95% 0.95% 0.95% 0.95% 0.94%

NULL (PID: 0x1FFF) 44.24% 31.28% 29.52% 31.39% 31.84% 42.91%

4.3.2 TRANSMISIÓN DE 3DTV SOBRE IPTV

Las pruebas de transmisión de 3DTV sobre IPTV se han realizado mediantes las técnicas

Unicast y Multicast.

4.3.2.1 Pruebas de transmisión mediante la técnica Unicast

A continuación se expondrán las gráficas correspondientes a los anchos de banda de los

paquetes de datos recibidos mediante IP. Se ha transmitido los vídeos 3D indicados en el

comienzo del apartado 4.3 con las configuraciones TaB y SbS, ambas con resoluciones 720p y

1080i. El flujo de paquetes ha sido analizado desde el cliente (receptor). Hay que indicar que

las unidades indicadas en el eje de ordenadas es bps.

1) Transmisión con configuración TaB y resolución 720p:

Figura 4.17 Ancho de banda en Unicast para configuración TaB y resolución 720p

En la figura 4.17 se observa que el valor medio del ancho de banda con estas características es

de aproximadamente 5Mbps.

87

2) Transmisión con configuración TaB y resolución 1080i:

Figura 4.18 Ancho de banda en Unicast para configuración TaB y resolución 1080i

En la figura 4.18 se puede observar que el valor medio del ancho de banda con estas

características es de aproximadamente 10Mbps, el doble que con resolución 720p.

3) Transmisión con configuración SbS y resolución 720p:

Figura 4.19 Ancho de banda en Unicast para configuración SbS y resolución 720p

En la figura 4.19 se observa que el valor medio del ancho de banda con estas características es

de aproximadamente 5Mbps. Los valores obtenidos son muy similares a la configuración TaB.

4) Transmisión con configuración SbS y resolución 1080i:

Figura 4.20 Ancho de banda en Unicast para configuración SbS y resolución 1080i

En la figura 4.20 se puede observar que el valor medio del ancho de banda con estas

características es de aproximadamente 10Mbps, el doble que con resolución 720p.

4.3.2.2 Pruebas de transmisión mediante la técnica Multicast

Las pruebas de transmisión realizadas bajo esta técnica, se han llevado a cabo con las mismas

configuraciones que en el apartado anterior. Los resultados de las pruebas se reflejan a

continuación:

88

1) Transmisión con configuración TaB y resolución 720p:

Figura 4.21 Ancho de banda en Multicast para configuración TaB y resolución 720p

Como se puede comprobar en la figura 4.21 el ancho de banda es un poco menor con relación

al resultado con la técnica Unicast; pero el valor medio del ancho de banda resultante sigue

siendo aproximadamente 5Mbps.

2) Transmisión con configuración TaB y resolución 1080i:

Figura 4.22 Ancho de banda en Multicast para configuración TaB y resolución 1080i

En la figura 4.22 se da la misma situación que para el caso anterior, el ancho de banda es algo

inferior al de la técnica Unicast; pero el valor medio del ancho de banda vuelve a ser

aproximadamente 10Mbps.

3) Transmisión con configuración SbS y resolución 720p:

Figura 4.23 Ancho de banda en Multicast para configuración SbS y resolución 720p

En la figura 4.23 se ve que estamos en la misma situación que en la configuración TaB, el ancho

de banda disminuye un poco con esta técnica; pero su valor medio sigue estando en torno a

los 5Mbps.

89

4) Transmisión con configuración SbS y resolución 1080i:

Figura 4.24 Ancho de banda en Multicast para configuración SbS y resolución 1080i

En este caso vuelve a suceder lo mismo que en los casos anteriores, el ancho de banda esta en

torno a los 10Mbps, un poco más bajo que con la técnica Unicast, tal como se observa en la

figura 4.24.

En conclusión, para enviar contenidos 3D de alta definición a través de IPTV, es necesario un

ancho de banda muy elevado que puede oscilar entre 5 y 20 Mbps.

Desde el punto de vista visual, el resultado obtenido en los receptores de visualización 3D,

tanto en un televisor 3D como en un teléfono móvil con pantalla autoesteroscópica ha sido

bueno. Puesto que tanto en la técnica Unicast como en la técnica Multicast se han visualizado

los vídeos 3D transmitidos con buena calidad.

90

5 Conclusiones y líneas de desarrollo

5.1 CONCLUSIONES

La estereoscopía ha tenido un desarrollo sostenido y extenso a lo largo de la historia, por

lo cual es muy necesario que se aplique acorde a la tecnología existente en todos los

campos, especialmente en el servicio de Televisión.

La Televisión Digital es un gran avance tecnológico, sin embargo este servicio debe

competir con tecnologías como IP-TV e Internet; por lo cual el brindar nuevas

prestaciones (3DTV) al usuario, harán que la TV sea atractiva y marque la línea de

desarrollo para otras tecnologías.

Todas las técnicas de codificación actuales para imágenes estereoscópicas se

fundamentan en la norma H.264 / MPEG-4, dado que este esquema de codificación está

vigente para DVB-T y DVB-T2 se tiene un gran punto a favor para poder implementar el

servicio.

Las técnicas de adquisición proponen variadas soluciones para múltiples vistas, en la

actualidad lo más aplicable son los métodos basados en 2 vistas (L+R), por lo tanto estos

métodos son los más apropiados para iniciar pruebas en etapas de adquisición y de

transmisión.

Las técnicas que usan el mapa de profundidad como información importante, presentan

un ahorro en tasas de bits; sin embargo merecen una infraestructura de adquisición de

imágenes exclusiva y propia de los formatos V+D, que son más adaptables a los

estándares de codificación menos sofisticados, por lo tanto representan una opción

conveniente en la etapa de transmisión.

La calidad en la adquisición depende proporcionalmente del número de vistas adquiridas,

es por ello que para un sistema multivista, la calidad en reproducción será máxima; no

obstante las dificultades en los requerimientos del canal y el costo de los equipos

aumenta significativamente. La demanda de recursos técnicos en estos casos hace que lo

más recomendable sea utilizar interpolación o creación de vistas no adquiridas y para

evitar el uso excesivo del canal, esta creación se debería hacer en recepción, lo cual por

ahora supone receptores bastante complejos.

El estándar H.264 es muy robusto en cuanto al tipo de información que puede procesar,

los anexos AVC y MVC presentan una gran herramienta para el desarrollo de sistemas con

gran cantidad de información; la 3DTV para DVB-T resulta completamente aplicable desde

este parámetro técnico y versátil al poder utilizar diferentes anexos de la norma

dependiendo del formato de producción 3D elegido.

91

La interfaz HDMI 1.4a establece la mejor solución para la comunicación de las señales 3D

en recepción, ya que se encuentra estandarizado y muestra grandes prestaciones, además

de contar con la aceptación del mercado.

Es necesario reglamentar el uso del ancho de banda de los múltiplex, para que así se

establezca un proceso de aplicación de señales estereoscópicas a uno o más canales y que

estos convivan tanto con señales HD y SD.

Con el ahorro de espectro radio eléctrico que implica la TDT, no es crítico que servicios

como el 3D puedan aplicarse con técnicas como Simulcast o Dual Streaming, ya que a

pesar de duplicar los recursos que se utilizarían normalmente, la capacidad disponible es

suficiente.

El desarrollo de la HDTV va íntimamente ligado al desarrollo de la 3DTV, ya que la primera

generación del servicio se fundamenta en la utilización del cuadro de alta definición.

La decisión sobre qué contenidos deben transmitirse en canales 3D, debe estar ligada a la

aceptación de los consumidores, por lo tanto es necesario tomar en cuenta los estudio

previos que determinan la clase de eventos que los espectadores desean y esperan ver

por televisión 3D.

El problema de la incomodidad visual debe ser abordado en todas las etapas: en la

adquisición, calibrando mejor las cámaras y utilizando mejores métodos de captación; en

la etapa de pre-procesamiento ajustando el paralaje y la disparidad horizontal, en la

codificación evitando pérdida de información de profundidad; en recepción efectuando

una correcta reconstrucción de la señal visual y por último al utilizar pantallas de alta

calidad con métodos polarizados o multiplexados en tiempo que generen la menor fatiga

visual posible.

Dentro de la reproducción sobre pantallas estereoscópicas y autoestereoscópicas, se

requieren amplios estudios y experimentos de evaluación subjetiva para determinar la

técnica de mayor aceptación.

Desde el punto de vista de transmisión sobre IPTV, uno de los inconvenientes es que el

sistema debe soportar tasas de transferencia muy elevadas para garantizar la calidad de

servicio contratada por los clientes.

Los clientes que deseen acceder a los servicios 3D deben tener televisores y

decodificadores 3D de alta definición.

Por el momento la solución económicamente más conveniente en la reproducción de la

señal, es utilizar gafas polarizadas o LCS. Las gafas 3D activas (LCS) tienen mejores

resultados en la resolución, ya que muestran imágenes de alta resolución en calidad Full-

HD y menor distorsión de la imagen; por otro lado las polarizadas permiten obtener

92

mayor luminosidad al no existir un parpadeo de la imagen a cada ojo; sin embargo en

ambos casos la solución mucho más barata implica utilizar gafas polarizadas (pasivas).

El presente estudio ha abordado en mayor o menor escala todos los aspectos que

comprenden un sistema de 3DTV, concluyendo que el sistema es viable técnicamente, y

que en pocos años algún operador de TDT en España debe incluir este servicio como parte

de las innovaciones de la digitalización.

5.2 LÍNEAS DE DESARROLLO

Del estudio realizado se desprenden campos donde es necesario desarrollar investigación

y generar aplicaciones propias del estándar.

Se recomienda efectuar más pruebas de campo y de calidad subjetiva para determinar el

formato óptimo para la norma DVB 3DTV y establecer una línea base de la evolución del

servicio, tomando en cuenta las generaciones estudiadas.

Con la aparición del nuevo códec HEVC o H.265 se abrirán nuevas líneas de desarrollo de

la 3DTV debido al mayor nivel de compresión de este códec con su antecesor.

La nueva Ultra HD será un nuevo desafío para el desarrollo de la tecnología de vídeo 3D.

Dado que la TV satelital ha profundizado en mayor medida el desarrollo de la 3DTV, se

recomienda estudiar los proyectos que se han lanzado, y recoger las técnicas y resultados

favorables para adaptarlos a las normas de televisión digital terrestre.

Se debe analizar e investigar métodos para actualizar los receptores STB tanto para los

formatos 3D actuales como los formatos que se están desarrollando.

Se recomienda desarrollar aplicaciones, con el objetivo de que el usuario interactúe con la

señal de vídeo 3D, pueda manipularla y elegir el formato de acuerdo a la pantalla o a su

conveniencia.

Es necesario establecer el grado de aceptación del servicio por parte de los consumidores

en la sociedad, por lo tanto se recomienda realizar estudios de mercado considerando

aspectos sociales y económicos.

93

Referencias Bibliográficas

Minoli, Daniel; “3DTV Content Capture, Encoding and Transmission”. John Wiley &

Sons; New Jersey; 2010.

Richardson, Iain; “H.264 and MPEG-4 Video compression”. Wiley, Inglaterra, 2003.

ITU-T Recommendation H.264, “Advanced video coding for generic audiovisual

Services” 2010.

BALAŠKO Hrvoje, “Comparison of Compression Algorithms for High Definition and

Super High Definition Video Signals”; Audio Video Consulting Ltd., Karlovačka 36b,

10020 Zagreb, Croatia; 2010.

BOISSON Guillaume, KERBIRIOU Paul y LOPEZ Patrick; THOMSON Research Digest;

“Encoding contents for 3DTV: binocular stereo, 2D+Z and LDV”; IEEE International

Conference on Image Processing (ICIP); 2009.

BONANSEA Lucas; “3D Hand gesture recognition using a ZCam and an SVM-SMO

classifier”; Tesis Iowa State University Ames; Iowa; 2009.

BOURGE Arnaud, GOBERT Jean y BRULS Fons, “MPEG-C Part 3: Enabling the

introduction of video plus depth contents”, Philips Applied Technologie (Suresnes,

France), Philips Research (Eindhoven, The Netherlands), 2006.

CHUANG Tzu-Der, TSUNG Pei-Kuei, LIN Pin-Chih, CHANG Lo-Mei, MA Tsung-Chuan,

CHEN Yi-Hau, CHEN Yu-Han, TSAI Chuan-Yung, y CHEN Liang-Gee; “A 59.5mW

Scalable/Multi-view Video Decoder Chip for Quad/3D Full HDTV and Video Streaming

Applications “;DSP/IC Design Lab, Graduate Institute of Electronics Engineering,

National Taiwan University, Taipei, Taiwan; 2010.

Digital Video Broadcasting (DVB); “Frame Compatible Plano-Stereoscopic 3DTV (DVB-

3DTV)”; DVB Document A154; Febrero 2011.

FEHN Christoph; “Depth-Image-Based Rendering (DIBR), Compression and

Transmission for a New Approach on 3D-TV” Fraunhofer-Institut für

Nachrichtentechnik, Heinrich-Hertz-Institut (HHI); Einsteinufer 37, 10587 Berlin,

Germany; 2004.

FEHN Cristopher; “A 3D-TV System Based On Video Plus Depth Information”;

Fraunhofer-Institut fÄur Nachrichtentechnik, Heinrich-Hertz Institut; 2009.

GARATE Jose Luis, “HD y 3D Situacion y Tendencias”, Grupo ASTRA, Madrid, Octubre

2010.

94

HITACHI, Ltd., PANASONIC Corporation., PHILIPS Consumer Electronics,

INTERNATIONAL B.V., SILICON Image, Inc., SONY Corporation, TECHNICOLOR, S.A.,

TOSHIBA Corporation; “High-Definition Multimedia Interface Specification Version 1.4a

Extraction of 3D Signaling Portion”; 4 Marzo; 2010.

KERBIRIOU Paul, BOISSON Guillaume, SIDIBÉ Korian, HUYNH-THU Quan, “Depth-based

representations: which coding format for 3D Video broadcast applications?;

Technicolor, 3D4YOU Project, 17 Marzo 2011.

LAKIS Christodoulou, LIAM M. Mayron, HARI Kalva, OGE Marques, y BORKO Furht; “3D

TV Using MPEG-2 and H.264 View Coding and Autostereoscopic Displays”; Dept. of

Computer Science and Engineering, Florida Atlantic University, Boca Raton, FL 33431,

Octubre 2006.

LEE Jin Young, WEY Hochen, y PARK Du-Sik; “A Fast and Efficient Multi-View Depth

Image Coding Method Based on Temporal and Inter-View Correlations of Texture

Images”; IEEE; 2011.

MULLER Karsten, “3D Video Formats and Coding Methods”; 3DTV Conference IEEE,

IHH; Alemania; 2010.

NAMHO Hur, HYUN Lee, GWANG Soon Lee, SANG Jin Lee, ATANAS Gotchev, y SANG-Il

Park; “3DTV Broadcasting and Distribution Systems”; IEEE transactions on

broadcasting, VOL. 57, NO. 2, Junio 2011.

OHM Jens-Rainer; “MPEG Developments in Multi-view Video Coding and 3D Video”;

RWTH Aachen University Lehrstuhl und Institut fur Nachrichtentechnik; Alemania

2009.

PEI-KUEI Tsung, LI-FU Ding, WEI-YIN Chen, TZU-DER Chuang, YU-HAN Chen, PAI-HENG

Hsiao, SHAO-YI Chien, y LIANG-GEE Chen; “Video Encoder Design for High-Definition

3D Video Communication Systems”; IEEE Communications Magazine ; Abril 2010.

ROHDE & SCHWARZ; “3D TV test signals in line with the HDMI 1.4a interface

standard”; Broadcasting/Test & Measurement Application Brochure; München

Alemania; 2011.

TAM Wa James, SPERANZA Filippo, YANO Sumio, SHIMONO Koichi, ONO y Hiroshi;

“Stereoscopic 3D-TV: Visual Comfort”; IEEE Transactions on broadcasting, VOL. 57, NO.

2, Junio 2011.

VETRO Anthony, TOURAPIS Alexis M., MÜLLER Karsten, y CHEN Tao; “3D-TV Content

Storage and Transmission”, IEEE Transactions on Broadcasting -- Special Issue on 3D-TV

Horizon: Contents, Systems and Visual Perception, Octubre 2010.

95

MERKLE, P., BRUST, H., DIX,K., MÜLLER, K. and WIEGAND, T.; ”Stereo Video

Compression for Mobile 3D Services”, IEEE Transactions on Broadcasting -- 3DTV

Conference: The True Vision - Capture, Transmission and Display of 3D Video, 2009.

Vetro, A. ; Tourapis, A.M. ; Muller, K. ; Tao Chen; “3D-TV Content Storage and

Transmission”, IEEE Transactions on Broadcasting –2011.

Jonte, J.I., Prieto, I., Fernández, A., Costales, R.; “Estudio Sobre las Necesidades

Tecnológicas en la IPTV y en la TV Móvil”, Ministerio de Comercio, Industria y Turismo.

IPTV and Internet Video – Wes Simpson, Howard Greenfield (2007).

“Manual de Buenas Prácticas Cadena de Recepción”. Grupo de Calidad del Servicio de

Televisión Digital Terrestre. Subdirección General de Infraestructuras y Normativa

Técnica. Marzo 2009.

http://tdtdvb-t.blogspot.com.es/.

The Digital Video Broadcasting Project (DVB) - www.dvb.org.

96

Glosario de Términos

3DTV Three dimensional Television

ADSL Asymmetric Digital Subscriber Line

AVC Advanced Video Coding

CABAC Context-adaptive binary arithmetic coding

CAVLC Context-Adaptive Variable Length

CCD Charged Couple Display

CFC Conventional HD Frame Compatible

COFDM Coded Orthogonal Frequency Division Multiplexing

CSV Conventional Stereo Video

DES Depth Enhanced Video

DVB-T Digital Video Broadcasting- Terrestrial

FEC Forward Error Correction

FHD3D Full HD 3D

FVV Free View-point Video

GOP Group of Picture

HDTV High Definition Television

HHD3D Half HD 3D

L+R Left + Right

LCD Liquid Crystal Display

LDV Layered Depth Video

MVC Multiview Video Coding

MVD Multiview Video Coding + Depth

OCA Optimized Chromatic Anaglyph

PAL Phase Alternating Line

PSNR Peak Signal Noise Ratio

QAM Quadrature Amplitude Modulation

97

QPSK Quadrature Phase Shift Keying

SbS Side by Side

SDTV Standard Definition Television

STB Set Top Box

SVC Scalable Video Coding

TaB Top and Bottom

TDT Televisión Digital Terrestre

TOF Time of Flight

TS Transport Stream

V+D Video + Depth

VCL Video Coding Layer

VoD Video on Demand