Core Fijo - Diplomatura en Telecomunicaciones Multimedia - Unidad 4.1

Diplomatura en

Telecomunicaciones Multimedia Módulo Core Fijo – Unidad 4.1

Ariel Roel

Ariel Roel – [email protected]

Unidad Temática 4


AGENDA – Unidad 4

• Introducción a la Voz sobre IP

• Introducción al Video sobre IP

• Protocolos de transporte de medios de tiempo real.

• Calidad de Servicio.

Voz y Video Sobre IP


El habla

• Habla

▫ Aire empujado desde los pulmones que pasa por las cuerdas vocales y a lo largo del tracto vocal

▫ Las vibraciones básicos - las cuerdas vocales

▫ El sonido se ve alterado por la disposición del tracto vocal (lengua y la boca)

• Modelo del tracto vocal como un filtro

▫ La forma cambia relativamente despacio

• Las vibraciones en las cuerdas vocales

▫ La señal de exitación


Sonidos Vocales

• El sonido vocal

▫ Las cuerdas vocales vibran abriendo y cerrándose

▫ Interrumpen el flujo de aire

▫ Impulsos de aire cuasi-periódicos

▫ La tasa de la apertura y cierre - el tono

▫ Un alto grado de periodicidad en el período de tono

2-20 ms


Sonidos Vocales

• Voz hablada • Densidad espectral


Sonidos no hablados

• Sonidos no hablados

▫ Se fuerza el aire a altas velocidades a través de una constricción

▫ La glotis se mantiene abierta

▫ Ruido similar a una turbulencia

▫ Muestra una pequeña periodicidad a largo plazo

▫ Se presentan correlaciones a corto plazo


Sonidos no hablados

• Sonidos no hablados • Densidad espectral


Otros sonidos

• Sonidos Explosivos

▫ Cierre completo en el tracto vocal

▫ La presión del aire aumenta y se suelta repentinamente

• Una amplia gama de sonidos

▫ La señal de la voz es relativamente previsible en el tiempo

▫ La reducción del ancho de banda de transmisión puede ser significativo


Muestreo de la voz

• Analógico a Digital ▫ muestras discretas de la forma de onda,

representando cada muestra con un cierto número de bits

▫ Una señal puede reconstruirse si es muestreada a un mínimo de dos veces la frecuencia máxima.

• Voz Humana ▫ 300-3800 Hz ▫ 8000 muestras por segundo

tiempo

Cada muestra es codificada en una palabra de 8-bit

(ej. 01100101)

=> 8000 x 8 bit/s


Cuantificacion

• Cantidad de bits usados para representar la onda

• Ruido de cuantificación

▫ La diferencia entre el nivel real de la señal de entrada analógica

• Mas bits para bajar el ruido

▫ El rendimiento baja

• Niveles de cuantificación uniformes

▫ Quienes hablan mas fuerte se escuchan mejor


Cuantificación no uniforme

• Pasos de cuantificación mas pequeños a niveles de señal más pequeños

• Distribuye la relación señal-ruido más uniformemente


Trasmisión discontinua y ruido de confort

• DTX es Discontinuous Transmission • Voice activity detector (VAD) detecta si hay

actividad vocal o no • Cuando no hay actividad vocal, se pueden usar los

siguientes procedimientos DTX: ▫ No transmitir nada ▫ Emitir Comfort Noise (CN) usando RFC 3389 ▫ CN generado por el codec como AMR SID (Silence

Descriptor)

• La frecuencia de los paquetes de ruido de confort varía, pero suele ser una fracción de la tasa normal de paquetes


Calidad de voz

• El ancho de banda es fácil de cuantificar

▫ La calidad de voz es subjetiva

• MOS, Mean Opinion Score

▫ ITU-T P.800

Excelente – 5

Bueno – 4

Correcto – 3

Pobre – 2

Malo – 1

▫ Minimo de 30 personas

▫ Escucha de muestras de voz o conversaciones


Calidad de voz

• Tecnicas subjetivas y objetivas de medicion de la calidad de la voz

• PSQM – Perceptual Speech Quality Measurement

▫ ITU-T P.861

▫ representan fielmente el juicio y la percepción humana

▫ comparación algorítmica entre la señal de salida y una entrada conocida

▫ tipo de altavoz, el volumen, la demora, frames activos/silencio, clipping, ruido ambiental


Tipos de codificadores (coders) de voz

• Codecs de forma de onda ▫ Muestreo y codificación ▫ Alta calidad y baja complejidad ▫ Gran consumo de ancho de banda

• Codecs de fuente (vocoders) ▫ Aproximan la señal de entrada a un modelo

matemático ▫ Filtros lineales predictivos del tracto vocal ▫ La información se envía en lugar de la señal ▫ Bajas tasas de bits, pero suenan sintéticos ▫ Mayores tasas de bits no mejoran mucho


Tipos de codificadores (coders) de voz

• Codecs híbridos

▫ Tratan de dar lo mejor de ambos mundos

▫ Llevan a cabo un grado de matcheo de la forma de onda

▫ Utilizan el modelo de producción de sonido

▫ Calidad bastante buena a velocidad de bits baja


G.711

• El codec mas comun ▫ Usado en PSTN

▫ PCM, Pulse-Code Modulation

• Si se utiliza cuantificación uniforme ▫ 12 bits * 8 k/sec = 96 kbps

• Para cuantificación no uniforme ▫ 64 kbps

▫ Ley mu

Norteamerica

▫ Ley A

Otros paises, un poco mas amigable a bajos niveles de señal

▫ Un MOS de alrededor de 4.3


DPCM, Differential PCM

• Sólo transmite la diferencia entre el valor anterior y el valor

real

• La voz cambia de forma relativamente lenta

• Es posible predecir el valor de una muestra basado en los valores de las muestras anteriores

• El receptor realizar la misma predicción

• La forma mas simpe

▫ Sin predicción

• No hay retardo por el algoritmo


• Predice los valores de las muestras basado en: ▫ Muestras pasadas ▫ Usando algún conocimiento de como la voz

cambia en el tiempo

• El error es cuantificado y transmitido ▫ Requiere menos bits

• G.721 ▫ 32 kbps

• G.726 ▫ A-law/mu-law PCM -> 16, 24, 32, 40 kbps ▫ MOS de aprox. 4.0 a 32 kbps

ADPCM, Adaptive DPCM


Analysis-by-Synthesis (AbS) Codecs

• Codec Hibrido

▫ Llena el vacio entre los del tipo de forma de onda y los de fuente

▫ Los mas exitosos y de mayor uso


G.729

• 8 kbps • Frames de entrada de 10 ms, 80 muestras para una

frecuencia de muestreo de 8 KHz • 5 ms look-ahead ▫ Delay del algoritmo de 15 ms

• Un frame de 80-bit para 10 ms de voz • Codec complejo ▫ G.729.A (Annex A) es simplificado ▫ La misma estructura de frames ▫ Calidad un poco mas baja


G.729

• G.729.B ▫ VAD, Voice Activity Detection

Basado en el analisis de diversos parametros de la entrada

Los frames actuales mas dos frames previos

▫ DTX, Discontinuous Transmission No envia nada o envia un SID frame El SID frame contiene informacion para generar el ruido

de confort

▫ CNG, Comfort Noise Generation

• G.729, con un MOS de 4.0 • G.729A con un MOS de 3.7


G.729

• G.729 Annex D ▫ Extensión para menores tasas ▫ 6.4 kbps; muestras de 10 ms, 64 bits/frame ▫ MOS 6.3 kbps G.723.1

• G.729 Annex E ▫ Una mejora para tasas mas altas ▫ El filtro de predicción lineal posee 10 coeficientes ▫ El de G.729 Annex E tiene 30 coef. ▫ El codebook de G.729 tiene 35 bits ▫ El de G.729 Annex E tiene 44 bits ▫ 118 bits/frame; 11.8 kbps


AMR

• GSM Adaptive Multi-Rate (AMR) codec

▫ Delay de codificación de 20 ms

▫ 8 modos diferentes

▫ 4.75 kbps a 12.2 kbps

▫ Cambio de modo en cualquier momento

▫ Ofrece transmision discontinua

El SID (Silence Descriptor) es enviado cada 8avo frame y es de 5 bytes

▫ Es el elegido por la mayoria de las redes 3G


Codecs

• Los valores de MOS son para condiciones de laboratorio

▫ G.711 no tiene mecanismos para paquetes perdidos

▫ G.729 puede acomodar un frame perdido interpolando información de frames previos

Pero eso causa error en los siguientes frames de voz

• Poder de procesamiento

▫ G.729, 40 MIPS

▫ G.726 10 MIPS

Core Fijo - Diplomatura en Telecomunicaciones Multimedia - Unidad 4.1

Technology

Transcript of Core Fijo - Diplomatura en Telecomunicaciones Multimedia - Unidad 4.1