Core Fijo - Diplomatura en Telecomunicaciones Multimedia - Unidad 4.1
-
Upload
ariel-roel -
Category
Technology
-
view
131 -
download
2
Transcript of Core Fijo - Diplomatura en Telecomunicaciones Multimedia - Unidad 4.1
Ariel Roel – [email protected]
AGENDA – Unidad 4
• Introducción a la Voz sobre IP
• Introducción al Video sobre IP
• Protocolos de transporte de medios de tiempo real.
• Calidad de Servicio.
Voz y Video Sobre IP
Ariel Roel – [email protected]
El habla
• Habla
▫ Aire empujado desde los pulmones que pasa por las cuerdas vocales y a lo largo del tracto vocal
▫ Las vibraciones básicos - las cuerdas vocales
▫ El sonido se ve alterado por la disposición del tracto vocal (lengua y la boca)
• Modelo del tracto vocal como un filtro
▫ La forma cambia relativamente despacio
• Las vibraciones en las cuerdas vocales
▫ La señal de exitación
Ariel Roel – [email protected]
Sonidos Vocales
• El sonido vocal
▫ Las cuerdas vocales vibran abriendo y cerrándose
▫ Interrumpen el flujo de aire
▫ Impulsos de aire cuasi-periódicos
▫ La tasa de la apertura y cierre - el tono
▫ Un alto grado de periodicidad en el período de tono
2-20 ms
Ariel Roel – [email protected]
Sonidos no hablados
• Sonidos no hablados
▫ Se fuerza el aire a altas velocidades a través de una constricción
▫ La glotis se mantiene abierta
▫ Ruido similar a una turbulencia
▫ Muestra una pequeña periodicidad a largo plazo
▫ Se presentan correlaciones a corto plazo
Ariel Roel – [email protected]
Otros sonidos
• Sonidos Explosivos
▫ Cierre completo en el tracto vocal
▫ La presión del aire aumenta y se suelta repentinamente
• Una amplia gama de sonidos
▫ La señal de la voz es relativamente previsible en el tiempo
▫ La reducción del ancho de banda de transmisión puede ser significativo
Ariel Roel – [email protected]
Muestreo de la voz
• Analógico a Digital ▫ muestras discretas de la forma de onda,
representando cada muestra con un cierto número de bits
▫ Una señal puede reconstruirse si es muestreada a un mínimo de dos veces la frecuencia máxima.
• Voz Humana ▫ 300-3800 Hz ▫ 8000 muestras por segundo
tiempo
Cada muestra es codificada en una palabra de 8-bit
(ej. 01100101)
=> 8000 x 8 bit/s
Ariel Roel – [email protected]
Cuantificacion
• Cantidad de bits usados para representar la onda
• Ruido de cuantificación
▫ La diferencia entre el nivel real de la señal de entrada analógica
• Mas bits para bajar el ruido
▫ El rendimiento baja
• Niveles de cuantificación uniformes
▫ Quienes hablan mas fuerte se escuchan mejor
Ariel Roel – [email protected]
Cuantificación no uniforme
• Pasos de cuantificación mas pequeños a niveles de señal más pequeños
• Distribuye la relación señal-ruido más uniformemente
Ariel Roel – [email protected]
Trasmisión discontinua y ruido de confort
• DTX es Discontinuous Transmission • Voice activity detector (VAD) detecta si hay
actividad vocal o no • Cuando no hay actividad vocal, se pueden usar los
siguientes procedimientos DTX: ▫ No transmitir nada ▫ Emitir Comfort Noise (CN) usando RFC 3389 ▫ CN generado por el codec como AMR SID (Silence
Descriptor)
• La frecuencia de los paquetes de ruido de confort varía, pero suele ser una fracción de la tasa normal de paquetes
Ariel Roel – [email protected]
Calidad de voz
• El ancho de banda es fácil de cuantificar
▫ La calidad de voz es subjetiva
• MOS, Mean Opinion Score
▫ ITU-T P.800
Excelente – 5
Bueno – 4
Correcto – 3
Pobre – 2
Malo – 1
▫ Minimo de 30 personas
▫ Escucha de muestras de voz o conversaciones
Ariel Roel – [email protected]
Calidad de voz
• Tecnicas subjetivas y objetivas de medicion de la calidad de la voz
• PSQM – Perceptual Speech Quality Measurement
▫ ITU-T P.861
▫ representan fielmente el juicio y la percepción humana
▫ comparación algorítmica entre la señal de salida y una entrada conocida
▫ tipo de altavoz, el volumen, la demora, frames activos/silencio, clipping, ruido ambiental
Ariel Roel – [email protected]
Tipos de codificadores (coders) de voz
• Codecs de forma de onda ▫ Muestreo y codificación ▫ Alta calidad y baja complejidad ▫ Gran consumo de ancho de banda
• Codecs de fuente (vocoders) ▫ Aproximan la señal de entrada a un modelo
matemático ▫ Filtros lineales predictivos del tracto vocal ▫ La información se envía en lugar de la señal ▫ Bajas tasas de bits, pero suenan sintéticos ▫ Mayores tasas de bits no mejoran mucho
Ariel Roel – [email protected]
Tipos de codificadores (coders) de voz
• Codecs híbridos
▫ Tratan de dar lo mejor de ambos mundos
▫ Llevan a cabo un grado de matcheo de la forma de onda
▫ Utilizan el modelo de producción de sonido
▫ Calidad bastante buena a velocidad de bits baja
Ariel Roel – [email protected]
G.711
• El codec mas comun ▫ Usado en PSTN
▫ PCM, Pulse-Code Modulation
• Si se utiliza cuantificación uniforme ▫ 12 bits * 8 k/sec = 96 kbps
• Para cuantificación no uniforme ▫ 64 kbps
▫ Ley mu
Norteamerica
▫ Ley A
Otros paises, un poco mas amigable a bajos niveles de señal
▫ Un MOS de alrededor de 4.3
Ariel Roel – [email protected]
DPCM, Differential PCM
• Sólo transmite la diferencia entre el valor anterior y el valor
real
• La voz cambia de forma relativamente lenta
• Es posible predecir el valor de una muestra basado en los valores de las muestras anteriores
• El receptor realizar la misma predicción
• La forma mas simpe
▫ Sin predicción
• No hay retardo por el algoritmo
Ariel Roel – [email protected]
• Predice los valores de las muestras basado en: ▫ Muestras pasadas ▫ Usando algún conocimiento de como la voz
cambia en el tiempo
• El error es cuantificado y transmitido ▫ Requiere menos bits
• G.721 ▫ 32 kbps
• G.726 ▫ A-law/mu-law PCM -> 16, 24, 32, 40 kbps ▫ MOS de aprox. 4.0 a 32 kbps
ADPCM, Adaptive DPCM
Ariel Roel – [email protected]
Analysis-by-Synthesis (AbS) Codecs
• Codec Hibrido
▫ Llena el vacio entre los del tipo de forma de onda y los de fuente
▫ Los mas exitosos y de mayor uso
Ariel Roel – [email protected]
G.729
• 8 kbps • Frames de entrada de 10 ms, 80 muestras para una
frecuencia de muestreo de 8 KHz • 5 ms look-ahead ▫ Delay del algoritmo de 15 ms
• Un frame de 80-bit para 10 ms de voz • Codec complejo ▫ G.729.A (Annex A) es simplificado ▫ La misma estructura de frames ▫ Calidad un poco mas baja
Ariel Roel – [email protected]
G.729
• G.729.B ▫ VAD, Voice Activity Detection
Basado en el analisis de diversos parametros de la entrada
Los frames actuales mas dos frames previos
▫ DTX, Discontinuous Transmission No envia nada o envia un SID frame El SID frame contiene informacion para generar el ruido
de confort
▫ CNG, Comfort Noise Generation
• G.729, con un MOS de 4.0 • G.729A con un MOS de 3.7
Ariel Roel – [email protected]
G.729
• G.729 Annex D ▫ Extensión para menores tasas ▫ 6.4 kbps; muestras de 10 ms, 64 bits/frame ▫ MOS 6.3 kbps G.723.1
• G.729 Annex E ▫ Una mejora para tasas mas altas ▫ El filtro de predicción lineal posee 10 coeficientes ▫ El de G.729 Annex E tiene 30 coef. ▫ El codebook de G.729 tiene 35 bits ▫ El de G.729 Annex E tiene 44 bits ▫ 118 bits/frame; 11.8 kbps
Ariel Roel – [email protected]
AMR
• GSM Adaptive Multi-Rate (AMR) codec
▫ Delay de codificación de 20 ms
▫ 8 modos diferentes
▫ 4.75 kbps a 12.2 kbps
▫ Cambio de modo en cualquier momento
▫ Ofrece transmision discontinua
El SID (Silence Descriptor) es enviado cada 8avo frame y es de 5 bytes
▫ Es el elegido por la mayoria de las redes 3G
Ariel Roel – [email protected]
Codecs
• Los valores de MOS son para condiciones de laboratorio
▫ G.711 no tiene mecanismos para paquetes perdidos
▫ G.729 puede acomodar un frame perdido interpolando información de frames previos
Pero eso causa error en los siguientes frames de voz
• Poder de procesamiento
▫ G.729, 40 MIPS
▫ G.726 10 MIPS