Professional Documents
Culture Documents
REDES UNIFICADAS
Setiembre 2008
Versión 7
1 Temario
1 Temario ............................................................................................................ 2
2 Introducción...................................................................................................... 4
3 Voz sobre redes de datos ................................................................................ 6
3.1 Codificación de voz ................................................................................... 6
3.1.1 G.711 ................................................................................................. 6
3.1.2 G.729 ................................................................................................. 6
3.1.3 G.723.1 .............................................................................................. 7
3.1.4 RTAudio............................................................................................. 8
3.2 Transmisión de voz sobre redes de datos ................................................ 8
3.3 RTP – Real-Time Transport Protocol ........................................................ 9
3.3.1 Versión (V)....................................................................................... 10
3.3.2 CSRC count (CC) ............................................................................ 11
3.3.3 Tipo de información (PT=Payload Type).......................................... 11
3.3.4 Número de secuencia (Sequence Number)..................................... 11
3.3.5 Marca de tiempo (Time Stamp)........................................................ 11
3.3.6 Identificador del origen (SSRC - Synchronization Source Identifier) 11
3.3.7 Identificador del tributario (CSRC - Contributing Sources Identifier) 12
3.4 RTCP – RTP Control Protocol ................................................................ 12
3.5 Ancho de banda en IP para voz.............................................................. 12
4 Video sobre redes de datos ........................................................................... 15
4.1 Aplicaciones de video ............................................................................. 15
4.2 Codificación de video .............................................................................. 15
4.2.1 JPEG ............................................................................................... 16
4.2.2 MPEG-x ........................................................................................... 17
4.3 Transmisión de video sobre redes de datos ........................................... 21
4.3.1 Paquetización del video ................................................................... 21
4.3.2 Ancho de banda en IP para video.................................................... 21
5 Calidad de voz en redes IP ............................................................................ 24
5.1 Factores que afectan la calidad de la voz sobre redes de paquetes ...... 24
5.1.1 Factor de compresión ...................................................................... 24
5.1.2 Pérdida de paquetes........................................................................ 24
5.1.3 Demora ............................................................................................ 24
5.1.4 Eco................................................................................................... 26
5.1.5 Variaciones en la demora (Jitter) ..................................................... 26
5.1.6 Tamaño de los paquetes ................................................................ 26
5.2 Medida de la calidad de voz.................................................................... 27
5.3 Métodos Subjetivos de medida de la calidad de voz .............................. 27
5.4 Métodos Objetivos de medida de la calidad de voz ................................ 28
5.4.1 E-Model ........................................................................................... 28
5.4.2 ITU-T P.862 (PESQ) ........................................................................ 37
5.4.3 ITU-T P.563 ..................................................................................... 39
6 Calidad de video en redes IP ......................................................................... 42
6.1 Factores que afectan la calidad del video sobre redes de paquetes ...... 42
6.1.1 Factor de compresión ...................................................................... 42
2 Introducción
Las redes de voz [1] y las redes de datos [2] presentan tecnologías muy disímiles.
Por un lado, la transmisión de voz, con una historia de más de 100 años, se basa
en el establecimiento de vínculos permanentes entre dos puntos, diseñados para
transmitir un tipo de señal específico: la voz humana, típica señal analógica, de
ancho de banda acotado, que debe llegar a destino “inmediatamente” y ser lo más
inteligible posible. Por otro lado, la transmisión de datos, con una relativa reciente
historia, se basa en la transmisión de información digital, sin establecer vínculos
permanentes, y donde los retardos no son generalmente importantes.
La primera “integración” de estas redes, existe desde hace muchos años: Los
MoDems (Moduladores / Demoduladores) utilizan las redes telefónicas para la
transmisión de datos a distancia. Dado que las redes telefónicas existen desde
mucho antes que las de datos, resulta entendible que las primeras transmisiones
de datos a distancia utilizaran como soporte estas redes. Para ello se diseñaron
los módems, encargados de adaptar la información “de datos” al medio telefónico.
Como éste último esta diseñado para señales analógicas, de hasta 3.4 kHz de
ancho de banda, los módems utilizan “tonos" dentro de esta banda para enviar los
datos que desean transmitir. De esta manera, se utilizan los enlaces telefónicos,
generalmente disponibles y ya amortizados, para transmitir esporádicamente
datos.
Algoritmo Descripción
G.711 Audio encoding at 64 k bit/s (µ-law and A-law)
G.722 7 kHz speed at 48, 56 and 64K bit/s (hi-fi voice) [3]
G.723.1 Dual Rate Speed at 6.4 and 5.3 k bit/s
G.728 16 k bit/s speech [4]
8 k bit/s speech (Conjugate structure- algebraic code excited
G.729 Annex A
linear prediction or CS-ACELP). Reduce Complexity
8 k bit/s speech (Conjugate structure- algebraic code excited
G.729 Annex B
linear prediction or CS-ACELP). Silence Compression
8 k bit/s speech (Conjugate structure- algebraic code excited
G.729 Annex AB linear prediction or CS-ACELP). Reduce Complexity & Silence
Compression
RTAudio 8.8 kb/s (Linear Prediction Coefficients LPC)
3.1.1 G.711
3.1.2 G.729
Cada 10 ms se extraen los parámetros del modelo CELP (coeficientes del filtro
lineal predictivo, códigos adaptativos y fijos, ganancias). A partir de estos se
computan los coeficientes LP, se convierten a LSP (Line Spectrum Pairs) y se
cuantizan usando vectores predictivos de dos etapas (VQ).
3.1.3 G.723.1
El retardo total (latencia) del algoritmo es de 37.5 ms, ya que, una vez recibida la
ventana de 30 ms, el algoritmo requiere de 7.5 segundos de muestras adicionales.
3.1.4 RTAudio
El codec RTAudio [9], desarrollado por Microsoft, está comenzando a ser utilizado
comercial y corporativamente. Utiliza un ancho de banda de 8.8 k bit/s, con
técnicas LPC (Linear Prediction Coefficients).
RTAudio utiliza técnicas de codificación VBR (Variable Bit Rate), lo que significa
que no todas las ventanas o cuadros de voz se codifiquen con la misma cantidad
de bytes.
Para poder transmitir las muestras codificadas de voz sobre redes de datos, es
necesario armar “paquetes”. Si la voz está codificada con ley A, una conversación
consiste en un “flujo” de 64 kb/s. Cada muestra dura 125 µs. Si bien se podría
formar un paquete con cada muestra de voz, esto generaría un sobrecarga
(“overhead”) demasiado importante (recordar que cada paquete requiere de
cabezales). Por otro lado, si se espera a “juntar” demasiadas muestras de voz,
para formar un paquete con mínima sobrecarga porcentual, se pueden introducir
retardos no aceptables. Un paquete IP puede tener hasta 1500 bytes de
información. Si con muestras de 64 kb/s se quisiera completar los 1500 bytes del
paquete IP, se introduciría un retardo de 125µs x 1500 = 187,5 ms. Esta demora
no es aceptable en aplicaciones de voz.
Ventana
Ventana
RTP
UDP
IP
Ethernet
Sobrecarga
Cada paquete RTP consiste en un cabezal y los datos de voz. El cabezal contiene
números de secuencia, marcas de tiempo, y monitoreo de entrega. El formato de
éste cabezal es el mostrado en la figura
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
V P X CC M PT Sequence number
Timestamp
Dado que para el envío de voz sobre redes es necesario armar “paquetes”, el
ancho de banda requerido dependerá de la “sobrecarga” (“overhead”) que generen
estos paquetes.
Como se ha visto, para el envío de voz sobre redes de paquetes se utiliza el
estándar RTP. Éste protocolo a su vez se monta sobre UDP, el que a su vez se
monta sobre IP, el que, en la LAN, viaja sobre Ethernet
20 ms de voz
Ethernet IP (UDP + RTP)
Esta suma de protocolos hace que el ancho de banda requerido para el tráfico de
voz sobre Ethernet sea bastante mayor al ancho de banda del audio.
Para una ventana de 20 ms, y con codificación de audio Ley A, se obtienen 160
bytes de voz por trama
En este ejemplo, cada 20ms se generan 226 bytes que se deben enviar por la
LAN. Esto equivale a un ancho de banda de 90,4 kb/s (compárese con los 64 kb/s
del flujo de audio)
Es de hacer notar que este cálculo fue hecho para el envío de audio en una
dirección. Como las comunicaciones son bidireccionales, el ancho de banda real
requerido en la LAN será el doble. Pueden utilizarse técnicas de “supresión de
silencio”, en las que no se envían paquetes cuando no hay audio. En este caso, el
ancho de banda total es similar al ancho de banda unidireccional.
Bytes de Ancho de
Duración de Bytes de Bytes de trama Banda en
Tipo de Codec Trama (ms) voz/Trama paquete IP Ethernet LAN (kbps)
10 80 120 146 116,8
G.711 (64 kb/s) 20 160 200 226 90,4
30 240 280 306 81,6
10 10 50 76 60,8
G.729 (8 kb/s) 20 20 60 86 34,4
30 30 70 96 25,6
G.723.1 (6.3 kb/s) 30 24 64 90 23,9
G.723.1 (5.3 kb/s) 30 20 60 86 22,9
Como se puede ver en la tabla, el ancho de banda puede variar de 23 kb/s a 117
kb/s, dependiendo del codec y la ventana seleccionada.
4.2.1 JPEG
Figura 4.1
El estándar JPEG 2000 [15] está también basado en la idea de utilizar para la
codificación los coeficientes de una transformación, pero en este caso se utilizan
transformadas discretas de Wavelets (DWT). Esta transformada permite comprimir
aún más las imágenes que la DCT. Una de las principales diferencias entre JPEG
y JPEG2000 es que en esta última no es necesario dividir la imagen original en
bloques. La transformada DWT se aplica a toda la imagen, lo que elimina el
conocido “efecto de bloques”.
4.2.2 MPEG-x
MPEG-1 [16] fue originalmente diseñado por el “Moving Picture Experts Group”
(MPEG) de la ISO (International Standards Organization) para el almacenamiento
y reproducción digital de aplicaciones multimedia desde dispositivos CD-ROM,
hasta velocidades de 1.5 Mb/s. MPEG-2 [17] fue el sucesor de MPEG-1, pensado
para proveer calidad de video desde la obtenida con NTSC/PAL y hasta HDTV,
con velocidades de hasta 19 Mb/s.
Figura 4.2
Figura 4.3
En 2001, el grupo MPEG de ISO/IEC y el VCEG (Video Coding Expert Group) del
ITU-T decidieron unir esfuerzos en un emprendimiento conjunto para estandarizar
un nuevo codificador de video, mejor que los anteriores, especialmente para
anchos de banda o capacidad de almacenamiento reducidos [20]. El grupo se
llamó JVT (Joint Video Team), y culminó con la estandarización de la
recomendación H.264/MPEG-4 Part 10, también conocida como JVT/H.26L/AVC
(Advanced Video Coding) o H.264/AVC. Este nuevo estándar utiliza
compensaciones de movimiento más flexibles, permitiendo dividir los macro-
bloques en diversas áreas rectangulares, y utilizar desplazamientos de hasta un
cuarto de píxel. Agrega además los cuadros del tipo SP (Switching P) y SI
(Switching I), similares a los P e I, pero con la posibilidad de reconstruir algunos
valores específicos de forma exacta. Con AVC, para una misma calidad de video,
se logran mejoras en el ancho de banda requerido de aproximadamente un 50%
respecto estándares anteriores [21] [22].
En redes IP, el transporte del video se realiza mediante los protocolos RTP y
RTCP, ya descritos en 3.3. El RFC 2250 [23] establece los procedimientos para
transportar video MPEG-1 y MPEG-2 sobre RTP. Varios paquetes MTS de 188
bytes pueden ser transportados en un único paquete RTP, para mejorar la
eficiencia.
Los RFC 3016 [24] y RFC 3640 [25] establecen los procedimientos para
transportar flujos de audio y video MPEG-4.
CIF
src2
0.8 src3
src4
0.7 src5
src7
0.6 src9
src10
src13
0.5
src14
src16
DMOS
0.4
src17
src18
0.3 src19
src20
0.2 src21
src22
0.1
0
0.000
0.250
0.500
0.750
1.000
1.250
1.500
1.750
2.000
2.250
2.500
2.750
3.000
Bitrate (Mb/s)
Figura 4.4
Por otra parte, en la Figura 4.5, tomada de [27], se muestra como varía el ancho
de banda requerido usando diversos codificadores, en función de la calidad de la
imagen, para una secuencia de video particular (“Tempete”, src22), en resolución
CIF a 15 Hz. Puede verse como para una misma calidad (medida en este caso
como PSNR1), MPEG-2 requiere de aproximadamente el doble de ancho de
banda que H.264/AVC.
1
La definición detallada de la métrica PSNR se presenta más adelante, en el capítulo 6.4
Figura 4.5
Como se puede ver, el ancho de banda de las señales de video puede variar
notoriamente, desde valores cercanos a los 64 kb/s (para baja resolución de
pantalla, imágenes con poco movimiento, baja cantidad de cuadros por segundo),
hasta varios Mb/s (para resoluciones medias o altas).
5.1.3 Demora
Un factor importante en la percepción de la calidad de la voz es la demora. La
demora total está determinada por varios factores, entre los que se encuentran
• Demoras de procesamiento
Es el tiempo involucrado en el procesamiento de la voz para la
implementación de los protocolos.
5.1.4 Eco
Los métodos subjetivos son en general caros y lentos porque requieren un gran
panel de usuarios. Son dependientes entre otros factores del país, del idioma, de
las experiencias previas de los usuarios.
5.4.1 E-Model
El “E-model” toma en cuenta una gran cantidad de factores que pueden deteriorar
la calidad de la voz percibida, como por ejemplo, el uso de compresión, los
retardos de la red, así como también los factores “típicos” en telefonía como ser
pérdida, ruido y eco. Puede ser aplicado para estimar la calidad de la voz en redes
de paquetes, tanto fijas como inalámbricas [30].
El E-Model puede ser utilizado para evaluar como se verá afectada la calidad de la
voz en una red en base a parámetros mensurables. El modelo parte de un puntaje
“perfecto” (100) y resta diversos factores que degradan la calidad, según se puede
ver en la ecuación (5.4.1).
R = Ro - Is - Id – Ie,eff + A (5.4.1)
donde
Los valores de R varían entre 0 y 100, correspondiendo los valores más altos a
mejores calidades de voz.
Cálculo de Is
donde
Siendo
La fórmula de cálculo detallada de los parámetros (Iolr, Ist, Iq) puede verse en la
recomendación G.107 [29].
Cálculo de Id
Donde
Idte Expresa una estimación para las degradaciones debidas al eco para
el hablante. Se calcula en base al factor TELR (Talker Echo Loudness
Rating) y la demora media T de punta a punta en un sentido. El factor TELR
es la medida de la atenuación del eco percibido por el hablante.
La fórmula de cálculo detallada de los parámetros (Idte, Idle, Idd) puede verse en la
recomendación G.107.
User Satisfaction
100
Very
satisfactory
90
Satisfactory
80
Some users
R TELR = 65 dB
dissatisfied
70
Many users
dissatisfied
60
Exceptional
limiting case
50
0 100 200 300 400 500
Puede verse como hasta 175 ms el valore de R es mayor que 90, y se encuentra
en la zona de “Muy satisfechos”. Sin embargo, luego de los 175 ms, el efecto de
las demoras degrada fuertemente la comunicación, haciéndola poco natural.
User Satisfaction
100
Very
satisfactory
90
Satisfactory
80 TELR = 65 dB
Some users
R TELR = 60 dB
dissatisfied
70 TELR = 55 dB
Cálculo de Ie-eff
Ie-eff representa las degradaciones producidas por los códecs y por las pérdidas de
paquetes, según la siguiente fórmula:
Ppl
Ie-eff = Ie + (95 − Ie) ⋅ (5.4.5)
Ppl
+ Bpl
BurstR
Donde
User Satisfaction
100
Very
satisfactory
90
Satisfactory
80
G.711
Some users
R dissatisfied
70 G.729A
Many users
dissatisfied G.723.1
60
Exceptional
limiting case
50
0 100 200 300 400 500
Cálculo de A
Relación de R y MOS
MOS
Excelente 5
Buena 4
Mediocre 3
Pobre 2
G.107_FB.2
Mala 1
0 20 40 60 80 100 R
El RFC 3611 [33] define campos de “reportes extendidos” (XR, Extended Reports)
en el protocolo RTCP que permiten intercambiar información acerca de la calidad
de la comunicación. En este RFC se incluye la posibilidad de intercambiar
información del valor de “R” entre fuentes y destinos, así como los valores
percibidos de MOS-LQ (MOS listening quality) y MOS-CQ (MOS conversational
quality)
PESQ compara una señal inicial X(t) con una señal degradada Y(t) que se obtiene
como resultado de la transmisión de X(t) a través de un sistema de
comunicaciones (por ejemplo, una red IP). La salida de PESQ es una predicción
de la calidad percibida por los sujetos en una prueba de escucha subjetiva que
sería atribuida a Y(t).
El primer paso de PESQ consiste en una alineación temporal entre las señales
iniciales X(t) y degradada Y(t). Para cada intervalo de señal se calcula un punto de
arranque y un punto de parada correspondientes.
Una vez alineadas, PESQ compara la señal (entrada) inicial con la salida
degradada alineada, utilizando un modelo por percepción, como el representado
en la siguiente figura
El modelo cognitivo de PESQ termina brindando una distancia entre la señal vocal
inicial y la señal vocal degradada (“nota PESQ”), la que corresponde a su vez con
una predicción de la MOS subjetiva. La nota PESQ se hace corresponder a una
escala similar a la de MOS, un número único en una escala de –0,5 a 4,5, aunque
en la mayoría de los casos la gama de las salidas estará entre 1,0 y 4,5, que es la
El método PESQ es objetivo e intrusivo, ya que requiere del envío de una señal
conocida de referencia para evaluar la calidad percibida de la voz. Algunos
sistemas lo implementan enviando un par de segundos de audio conocido, lo que
basta para poder aplicar el método.
El algoritmo P.563 es aplicable para la predicción de la calidad vocal sin una señal
de referencia independiente. Por ese motivo, este método se recomienda para la
evaluación no intrusiva de la calidad vocal y para la supervisión y evaluación con
la red en funcionamiento, empleando en el extremo lejano de una conexión
telefónica fuentes de señal vocal desconocidas.
En comparación con la Rec. ITU-T P.862 (que utiliza el método “basado en dos
extremos” o “intrusivo”) que compara una señal de referencia de elevada calidad
con la señal degradada en base a un modelo perceptual, P.563 predice la calidad
de la voz de una señal degradada sin una señal vocal de referencia dada. En la
figura siguiente se ilustran las diferencias entre ambos métodos.
La señal vocal que debe evaluarse se analiza de varias formas, que detectan un
conjunto de parámetros de señal característicos. En base a un conjunto
restringido de parámetros clave se establece la asignación a una clase de
distorsión principal.
Cada clase de distorsión utiliza una combinación lineal de varios parámetros para
generar la calidad vocal intermedia.
La calidad vocal definitiva se calcula combinando los resultados de calidad vocal
intermedia con algunas características adicionales de la señal.
6.1 Factores que afectan la calidad del video sobre redes de paquetes
Debido al gran ancho de banda requerido en video para enviar la señal sin
comprimir, el uso de codecs con compresión es sumamente habitual en video.
Esto pone un límite a la calidad de imagen recibida, el que es independiente del
medio de transmisión sobre el que viaje la señal.
Figura 6.1
Una idea similar es presentada en [41], donde se presenta una métrica para
priorizar ciertos paquetes de video, en base a la estimación de la distorsión
percibida en caso de la pérdida o llegada fuera de tiempo de cada paquete.
Si bien varios trabajos se han realizado acerca de la degradación del video debida
a la pérdida de paquetes, el tema está aún abierto, y no hay aún estándares ni
trabajos sistemáticos de comparación de diferentes modelos.
Los métodos de medida de calidad de video, al igual que los de voz, se clasifican
en métodos subjetivos y métodos objetivos. Los métodos subjetivos se basan en
conocer directamente la opinión de los usuarios. Los métodos objetivos intentan
predecir la calidad percibida por los usuarios, en base a medidas que puedan
realizarse mediante algoritmos automáticos.
Las primeras medidas objetivas de la calidad del video están basadas en obtener
las diferencias, píxel a píxel, entre las imágenes originales (previo a la compresión
y transmisión) y las imágenes presentadas (luego de la recepción y
reconstrucción). Dado que los sistemas de video utilizan técnicas de compresión
con pérdida de información, y que los medios de transmisión a su vez pueden
introducir factores distorsionantes (retardos, pérdida de paquetes, etc.), las
imágenes presentadas serán diferentes a las originales.
Las medidas más simples son las de error cuadrático medio (MSE - Mean Square
Error) y su raíz cuadrada (RMSE = Root Mean Square Error) y la relación señal a
ruido de pico (PSNR – Peak Signal to Noise Ratio), definidas en las ecuaciones
(6.1) a (6.3) más adelante. Estas métricas requieren de la referencia completa de
la señal original para poder ser calculadas.
2
1 N M T
MSE= ∑∑∑ x(m, n, t ) − y(m, n, t )
TMN n=1 m=1 t =1
[ ] (6.1)
L2
PSNR=10 log10 (6.3)
MSE
Estas métricas son fáciles de calcular, y tienen un claro significado. Por estas
razones, han sido ampliamente usadas como métricas en la estimación de la
calidad de video. Hay que poner especial énfasis en la alineación espacial y
temporal de las imágenes a comparar, ya que la referencia y la imagen degradada
pueden estar desfasadas en el tiempo o en el espacio.
Sin embargo, también han sido ampliamente criticadas por no tener correlación
directa con la calidad percibida. Por ejemplo, en la Figura 6.2, tomada de [46], se
Debido a la baja correlación entre el MSE, RMSE y PSNR con la calidad percibida,
en los últimos tiempos, se ha realizado un gran esfuerzo para desarrollar nuevos
modelos que tengan en cuenta las características de percepción del sistema visual
humano y que permitan calcular métricas objetivas que lo simulen. Sin embargo,
no se existen, al momento de escribir el presente trabajo, métodos objetivos de la
medida perceptual de calidad de video estandarizados, que apliquen a todos los
casos y con buenos resultados respecto a las medidas subjetivas. Sin embargo,
existen varias propuestas de métricas de medida, con diversa complejidad y
precisión de sus resultados. Las métricas basadas en analizar una imagen
degradada y compararla píxel a píxel con su imagen de referencia (MSE, PSNR),
no son suficientes para estimar la calidad percibida de la misma. El sistema visual
humano es extremadamente complejo, y puede detectar fácilmente algún tipo de
distorsión, mientras que puede pasar por alto otras, dependiendo de diversos
factores. Estos factores pueden incluir el tipo de aplicación (TV, video conferencia,
etc.), el lugar de la imagen en donde se produce la degradación (generalmente las
degradaciones son menos visibles en regiones con muchos detalles o “actividad
espacial”, o con gran movimiento, y son más visibles en imágenes estacionarias, o
en fondos poco texturados). Incluso la calidad percibida puede depender del tipo
de dispositivo utilizado y del tamaño del monitor [48].
factores que degraden una señal, en ambientes controlados. Sin embargo, no son
adecuados para aplicaciones de tiempo real (TV, video conferencias, etc.), ya que
no es posible tener las señales originales.
La gran mayoría de los modelos propuestos hasta el momento son del tipo FR
(Full Reference), ya que requieren de la señal de referencia para el cálculo de sus
métricas.
Figura 6.2
Evaluaciones de imágenes comprimidas con JPEG.
Arriba: Imagen “Tiffany” original y comprimida, MSE=165; Medio: Imagen “Lago” original y
comprimida, MSE=167; Abajo: Imagen “Mandril” original y comprimida, MSE=163
Figura 6.3
1
0,9
0,8
0,7
0,6 525
0,5
0,4 625
0,3
0,2
0,1
0
A
R
ty
D
ity
m
AS
TI
N
Pq
i
co
rs
rs
PS
N
N
ve
ve
C
le
Te
ni
ni
U
U
sh
ba
ei
iti
ns
hi
Br
Yo
Figura 6.4
En el contexto del VQEG, “Multimedia” se define como una aplicación que puede
combinar texto, gráficos, video y sonido dentro de un mismo paquete. Estas
aplicaciones incluyen, por ejemplo, sistemas de video conferencias. Las
herramientas a evaluar por el grupo MM del VQEG pueden ser utilizadas tanto en
ambientes de laboratorio (con modelos FR) como en ambientes operacionales,
con modelos RR y NR. El análisis será basado en medidas del tipo DMOS para los
modelos FR y RR, y medidas de MOS para el modelo NR.
Se espera que las pruebas subjetivas se realicen en forma separada para los
diferentes tipos de “monitores” utilizados. Por ejemplo, se prevén pruebas
específicas para dispositivos móviles como PDAs, independientes de las pruebas
realizadas en ordenadores de escritorio, ya que las características visuales de
estos dispositivos son muy diferentes. Por lo tanto, es posible que del resultado de
las pruebas, surjan modelos más adecuados a cada tipo de dispositivo.
La última versión disponible del plan de pruebas del grupo MM, al momento de
publicar estas notas, es la 1.16, del 7 de febrero de 2007 [52]
7 Protocolos VoIP
7.1 H.323
La primera versión de H.323 fue aprobada en 1996 por la ITU-T. La versión 2 fue
aprobada en enero de 1998, la versión 3 en 1999, la versión 4 en 2000, la versión
5 en 2003 y la versión 6 en junio de 2006. H.323 es parte de las recomendaciones
H.32x (como por ejemplo H.320 para ISDN y H.324 para la PSTN)
• Terminales H.323
• Pasarelas (“Gateways”) para interconectar el “mundo” H.323 con otros
sistemas de telecomunicaciones (típicamente la red telefónica pública
analógica y digital)
• Controlador H.323 (“Gatekeeper”)
• Unidades de control multipunto (“MCU - Multipoint Control Units”)
7.1.1.1 Terminales
Los terminales H.323 son los “teléfonos multimedia IP”. Estos “teléfonos” pueden
ser aplicaciones informáticas, que utilizan las capacidades multimedia del PC
(parlantes y micrófono), o terminales físicos de similar aspecto a cualquier teléfono
o videoteléfono.
La recomendación establece que esos terminales deben soportar obligatoriamente
comunicaciones de voz y opcionalmente comunicaciones de datos y video. La
recomendación también establece los protocolos utilizados en la señalización de
las llamadas, los mensajes de control, la manera de realizar la multiplexación de
estos mensajes, los codecs de audio y video y los protocolos utilizados para el
intercambio de datos entre los terminales.
Alcance de H.323
Audio Codec
Micrófono G.711, G.722,
Parlante G.723, G.728,
G.729
RTP UDP
RTCP
Video Codec
Cámara H.261, H.263
Display
Intrerfaz de
Equipos datos
de datos T.120 IP
Control
Canal de
control
H.245 TCP
Control
Canal de
Interfaces señalización
de usuario H,225.0
(Q.931)
Canal de
RAS
H.225.0
Audio Codec
Si el terminal soporta G.723.1, debe ser capaz de codificar a 5.3 kb/s y a 6.3 kb/s.
Video Codec
• H.261 (n x 64 kb/s)
• H.263 ( < 64 kb/s)
Interfaz de datos
El protocolo RTP, basado en el RFC 3550 (ver 3.3), establece los principios de un
protocolo de transporte sobre redes que no garantizan calidad de servicio para
datos “de tiempo real”, como por ejemplo voz y video.
El RFC 3550 también detalla el protocolo de control RTCP. Los paquetes RTCP
son enviados periódicamente y contienen indicadores de la calidad del enlace, y
otros datos acerca de la fuente y destino de la comunicación. Estos indicadores
incluyen la cantidad de paquetes enviados, la cantidad de paquetes recibidos
perdidos y el “jitter” en el receptor. El RFC 3550 no establece que deben hacer las
aplicaciones (terminales H.323 en este caso) con los indicadores recibidos, sino
que esto queda librado a cada implementación. Los usos típicos están
relacionados con el cambio de codecs, y el reporte de problemas, locales,
remotos o globales.
Los terminales H.323 utilizan uno o varios “canales de control” para enviar y recibir
mensajes desde y hacia otros terminales y dispositivos H.323 (gateways,
gatekeepers, etc.). El protocolo utilizado en estos canales de control está
determinado en la recomendación H.245 (“Line transmisión of non-telephone
signals – Control protocol for multimedia communication” (ver [55])) de la ITU-T.
Los terminales deben mantener un canal de control H.245 por cada llamada en la
que el terminal esté participando. Dado que un terminal puede estar participando
en forma simultánea en varias llamadas, puede tener también varios canales de
control H.245 abiertos.
Los gateways son responsables de adaptar el audio, video y los datos, así como
también la señalización, entre los formatos propios de H.323 y otras redes de
telecomunicación, de manera transparente para los usuarios.
7.1.1.3 Gatekeeper
Traducción de direcciones
Una de las funciones principales del Gatekeeper es traducir un número telefónico,
o un “alias” a la dirección de red apropiada (por ejemplo, la dirección IP). Para ello,
el Gatekeeper debe disponer de una tabla de traducción de direcciones, que se
actualiza cada vez que un dispositivo (por ejemplo un terminal H.323) se registra o
de-registra en el Gatekeeper.
Control de Admisión
El Gatekeeper puede autorizar o negar el acceso (registro) a la red H.323,
utilizando mensajes descriptos en la recomendación H.225.0. Las reglas de
decisión para autorizar o negar el acceso no son parte de la recomendación.
Gerenciamiento de su “Zona”
Un Gatekeeper define una “Zona H.323”. Los terminales, gateways y MCUs
registrados en el mismo Gatekeeper pertenecen a la misma “zona”. El Gatekeeper
debe brindar como mínimo los servicios descritos anteriormente para todos los
dispositivos de su “Zona”.
Autorización de llamadas
Mediante el uso de señalización H.225.0, el Gatekeeper puede autorizar o negar
llamadas solicitadas desde los terminales. Las razones para autorizar o negar
llamadas pueden incluir criterios de restricciones de ciertos terminales, horarios
del día, etc. La recomendación no establece cuales deben ser estos criterios, los
que quedan librados a los fabricantes.
Una red puede tener más de un Gatekeeper, los que pueden comunicarse entre
sí. Los protocolos de comunicación utilizados entre dos o más Gatekeeper no
están especificados en la recomendación.
El MCU mínimo puede consistir de un único MC y ningún MP. En este caso, las
funciones de mezcla y conmutación de audio y video deberán ser provistas por los
propios terminales. Un MCU típico, que soporte conferencias centralizadas, se
compone de un MC y un MP. Un MCU típico que soporte únicamente conferencias
descentralizadas, se compone de un MC y un MP con soporte únicamente la
recomendación T.120 (datos)
7.2 SIP
En marzo de 1999 es aprobado el RFC 2543, por el grupo de estudio MMUSIC del
IETF, dando origen oficial al protocolo SIP (Session Initiaton Protocol). SIP tiene
sus orígenes a fines de 1996, como un componente del “Mbone” (Multicast
Backbone), El Mbone, era una red experimental montada sobre la Internet, para la
distribución de contenido multimedia, incluyendo charlas, seminarios y
conferencias de la IETF. Uno de sus componentes esenciales era un mecanismo
para invitar a usuarios a escuchar una sesión multimedia, futura o ya establecida.
Básicamente un “protocolo de inicio de sesión” (SIP).
En junio de 2002, el RFC 2543 fue reemplazado por un conjunto de nuevas
recomendaciones, entre las que se encuentran los RFC 3261 al 3266
[58][59][60][61][62][63].
SIP SIP
User Agent User Agent
Client Server
INVITE sip:pepe@fing.com
180 Ringing
200 OK
ACK
Media Stream
BYE
200 OK
host.abc.com sip.fing.com
Método Descripción
INVITE A session is being requested to be setup using a specified media
Message from client to indicate that a successful response to an INVITE
ACK
has been received
OPTIONS A Query to a server about its capabilities
BYE A call is being released by either party
Cancels any pending requests. Usually sent to a Proxy Server to cancel
CANCEL
searches
REGISTER Used by client to register a particular address with the SIP server
SUBSCRIBE Used to request status or presence updates from the presence server
NOTIFY Used to deliver information to the requestor or presence “watcher.”
Para comprender mejor el formato de los mensajes SIP, se analizará con más
detalle el método “INVITE”.
v=0
o=AGarcia 2890844526 2890842807 IN IP4 126.16.64.4
s=Phone Call
c=IN IP4 100.101.102.103
t=0 0
m=audio 49170 RTP/AVP 0
a=rtpmap:0 PCMU/8000
• Origen (o)
o=<username> <session id> <version> <network type> <address type>
<address>
• Temporaizadores (t)
t=<start time> <stop time>
Indica las horas de comienzo y fin de una sesión.
• Medios (m)
m=<media> <port> <transport> <fmt list>
<media> puede ser "audio", "video", "application", "data" and "control"
<port> Puerto para el stream de medios
<transport> Para IP4, típicamente es RTP/AVP, indicando que se
utiliza el transporte RTP
<fmt list> Es el formato del audio o video transportado (Ver Tipo de
información (PT=Payload Type) )
• Atributos (a)
a=<attribute>:<value>
a=<attribute>
El campo “a” permite definir atributos, tanto a nivel de la sesión como a nivel
de cada uno de los medios. Puede haber varios campos de atributos. Éstos
pueden ser propiedades, del tipo a=<flag>, o atributos, del tipo
a=<attribute>:<value>
SIP utiliza una arquitectura del tipo “Cliente-Servidor”, y tiene los siguientes
componentes:
Los terminales SIP, al igual que los H.323 son “teléfonos multimedia IP”. Estos
“teléfonos” pueden ser aplicaciones informáticas, que utilizan las capacidades
multimedia del PC (parlantes y micrófono), o terminales físicos de similar aspecto
a cualquier teléfono o videoteléfono.
Los terminales SIP, llamados “SIP User Agents”, pueden iniciar y recibir “sesiones”
SIP. Cada terminal dispone de un “User Agent Client” (UAC) y un “User Agent
Server”. Los UAC son los encargados de iniciar requerimientos SIP hacia otros
terminales. Los UAS son quienes escuchan y atienden los requerimientos
remotos.
Registrar Server
Proxy Server
Es un servidor que atiendo las solicitudes y las redirige. Para ubicar el destino,
puede consultar un servidor de ubicaciones (Location Server). La siguiente figura
esquematiza el funcionamiento de SIP Proxy
INVITE
INVITE
200 OK
200 OK
ACK
Media
BYE
200 OK
Redirect Server
302 Moved
1 RS
ACK 2
C
INVITE
3
UAS
180 Ringing
200 OK
ACK
Media Stream
Location Server
Presence Server
Al igual que en H.323, existen pasarelas SIP hacia la PSTN y también hacia H.323
Los gateways son responsables de adaptar el audio, video y los datos, así como
también la señalización, entre los formatos propios de SIP y otras redes de
telecomunicación, de manera transparente para los usuarios.
8 Unificación en el Backbone
Como vimos en la Introducción, la integración de las redes de voz y datos en el
Backbone (es decir, en los enlaces a distancia entre varios puntos de la misma
empresa) es un concepto que tiene ya varios años, y el principal móvil es el ahorro
económico.
8.1 Multipelxores
PBX PBX
Voz Voz
Interfaces de Voz:
FXS
Esta interfaz “simula” una línea urbana, a la que se puede conectar un teléfono
analógico. También es posible conectar un puerto de línea urbana de una PBX.
FXO
Esta interfaz “simula” un teléfono, a la que se puede conectar una línea urbana.
También es posible conectar un puerto de interno de una PBX.
E&M
Esta interfaz se conecta a PBX, con señalización E&M
T1 / E1
Esta interfaz provee canales telefónicos a través enlaces digitales T1 (24 canales)
o E1 (30 canales), típicamente con señalización CAS (Channel Associated
Signaling) o ISDN PRI.
Muchos de estos equipos soportan actualmente “placas de voz”, con las mismas
interfaces que los multiplexores (FXS, FXO, E&M, E1, etc.)
Los paquetes de voz que salen del Gateway son enviados por el Router, a través
de la WAN, hasta el Gateway de la otra PBX.
I IP
P
PBX PBX
LAN
Router WAN Router
LAN
Por otro lado, cuando la velocidad de acceso a la WAN es pequeña, los tiempos
que demoran en ser enviados los paquetes no son despreciables. Por ejemplo, un
paquete de 1.500 bytes, transmitido a 32 kbps demora 375 mseg en ser
transmitido (1,5x8/32). Los paquetes de voz, aún siendo priorizados, deberán
esperar a que pase el paquete de datos, por lo que se introducen demoras muy
apreciables en el sistema. Previniendo esto, algunos protocolos de WAN pueden
“fragmentar” los paquetes IP grandes, en varios paquetes de WAN más pequeños,
de manera que entre cada fragmento del paquete original se puedan insertar
paquetes de voz. En el caso de Frame Relay, los mecanismos de fragmentación
están normalizados, según la recomendación FRF-12 (“Frame Relay
Fragmentation Implementation Agreement”)
Es muy importante que éstos equipos puedan “marcar” a los paquetes que
generan como “prioritarios”, ya sea a nivel de IP, Ethernet, o ambos. Es también
muy importante que los routers respeten la priorización, según las “marcas”
realizadas por los “gateways”
Gw Gw
PBX PBX
LAN
Router WAN Router
LAN
9 Unificación en el Escritorio
La unificación de las redes de voz y datos a nivel del “escritorio” comprende varias
tecnologías. La tecnología llamada “CTI” (Computer Telephony Integration)
permite vincular la telefonía con las aplicaciones informáticas. Sobre esta
tecnología se han desarrollado diversos tipos de aplicaciones. Se destaca su uso
en ambientes de Call Center, y más recientemente, como plataforma tecnológica
para las denominadas “Comunicaciones Unificadas”.
9.1 CTI
La tecnología de CTI (Computer Telephony Integration) fue concebida
manteniendo las redes de voz y las de datos separadas, pero permitiendo integrar
ambos sistemas. Esto se logra a través de vínculos de datos entre los servidores
informáticos y las centrales telefónicas.
LAN Enlace
Host Pbx
Las tecnologías de CTI son ampliamente utilizadas, desde hace ya varios años, en
ambientes de Call Center, dónde es importante minimizar los tiempos de cada
CTI es conocido también como “RCC”, o “Remote Call Control”, entiendo por éste
concepto a las tecnologías que permiten realizar el control de las llamadas y los
teléfonos desde aplicaciones externas.
Las tecnologías de CTI están basadas en arquitecturas del tipo “cliente – servidor”.
Un “Servidor de Telefonía” se vincula con la PBX mediante un enlace dedicado a
tal fin. Originalmente estos enlaces se implementaban sobre comunicaciones
seriales (RS-232 por ejemplo). Actualmente se realizan a través de la red IP. En el
“Servidor de Telefonía” se instalan programas que dialogan con las PBX, y
“publican” servicios para los usuarios de la red de datos. Éstos servicios permiten
controlar los dispositivos telefónicos (por ejemplo, los teléfonos) desde
aplicaciones informáticas. Existen varios “estándares” de CTI entre los que se
destacan:
9.1.3 CSTA
9.2.1.2 Presencia
9.2.1.4 Conferencias
El RFC 4245 [69] publicado en 2005 describe los lineamientos para construir
aplicaciones que soportan conferencias de manera interoperable, basados en SIP.
Los requerimientos básicos descritos en ésta recomendación incluyen, entre otros:
9.2.1.5 Colaboración
Referencias
[11] RFC 3551: “RTP Profile for Audio and Video Conferences with Minimal
Control”, H. Schulzrinne et al (July 2003)
[18] Digital television fundamentals: design and installation of video and audio
systems
Michel Robin, Michel Poulin
ISBN 0-07-053168-4, 1998, McGraw-Hill
[22] Report of The Formal Verification Tests on AVC (ISO/IEC 14496-10 | ITU-T
Rec. H.264)
ISO/IEC JTC1/SC29/WG11, MPEG2003/N6231
December 2003
[24] RFC 3016 RTP Payload Format for MPEG-4 Audio/Visual Streams
Y. Kikuchi et al, November 2000
[25] RFC 3640 RTP Payload Format for Transport of MPEG-4 Elementary
Streams
[29] ITU-T G.107 The E-model, a computational model for use in transmission
planning, March 2005, http://www.itu.int/rec/T-REC-G.107/e
[33] RFC 3611: “RTP Control Protocol Extended Reports (RTCP XR)”, T.
Friedman et al (November 2003)
[40] Delivery of MPEG Video Streams with constant perceptual quality of service
Quaglia, D. De Martin, J.C.
IEEE, Proceedings International Conference on Multimedia, 2002
[42] Packet Loss Resilience for MPEG-4 Video Stream over the Internet
Jae-Young Pyun, Jae-Han Jung, Jae-Jeong Shim
IEEE Transactions on consumer electronics, Vol 48, issue 3, August 2002
[43] Adaptive Media Playout of Low Delay Video Streaming Over Error Prone
Channels
Mark Kalman, Eckehard Steinbach, Bernd Girod,
IEEE Transactions on Circuits and Systems for Video Technology, Vol 14,
no 6, June 2004
[50] FINAL REPORT FROM THE VIDEO QUALITY EXPERTS GROUP ON THE
VALIDATION OF OBJECTIVE MODELS OF VIDEO QUALITY
ASSESSMENT
June, 2000
[51] FINAL REPORT FROM THE VIDEO QUALITY EXPERTS GROUP ON THE
VALIDATION OF OBJECTIVE MODELS OF VIDEO QUALITY
ASSESSMENT, PHASE II ©2003 VQEG
August 25, 2003
[58] RFC 3261: SIP: Session Initiation Protocol. J. Rosenberg et al. June
2002
[60] RFC 3263: Session Initiation Protocol (SIP): Locating SIP Servers. J.
Rosenberg et al. June 2002
[61] RFC 3264: An Offer/Answer Model with Session Description Protocol (SDP)
J. Rosenberg et al. June 2002
[63] RFC 3266: Support for IPv6 in Session Description Protocol (SDP)
S. Olson et al, June 2002
[64] SIP : Understanding the Session Initiation Protocol. —2nd ed. — (Artech
House telecommunications library)
ISBN 1-58053-655-7, Alan B. Johnston, 2004
[69] RFC 4245 High-Level Requirements for Tightly Coupled SIP Conferencing
O. Levin et al, November 2005