El Protocolo de transporte en tiempo real ( RTP ) es un protocolo de red para la transmisión de audio y vídeo a través de redes IP . El RTP se utiliza en sistemas de comunicación y entretenimiento que implican la transmisión de medios , como telefonía , aplicaciones de videoconferencia (incluido WebRTC) , servicios de televisión y funciones de pulsar para hablar basadas en la web .
El protocolo RTP generalmente se ejecuta sobre el protocolo de datagramas de usuario (UDP). El protocolo RTP se utiliza junto con el protocolo de control RTP (RTCP). Mientras que el protocolo RTP transporta los flujos de medios (por ejemplo, audio y video), el protocolo RTCP se utiliza para monitorear las estadísticas de transmisión y la calidad del servicio (QoS) y ayuda a la sincronización de múltiples flujos. El protocolo RTP es uno de los fundamentos técnicos de la voz sobre IP y, en este contexto, se utiliza a menudo junto con un protocolo de señalización como el protocolo de inicio de sesión (SIP), que establece conexiones a través de la red.
RTP fue desarrollado por el Grupo de Trabajo de Transporte de Audio y Video del Grupo de Trabajo de Ingeniería de Internet (IETF) y publicado por primera vez en 1996 como RFC 1889, que luego fue reemplazado por RFC 3550 en 2003. [2]
Las investigaciones sobre audio y video a través de redes de conmutación de paquetes se remontan a principios de la década de 1970. El Grupo de Trabajo de Ingeniería de Internet (IETF) publicó RFC 741 en 1977 y comenzó a desarrollar RTP en 1992, [1] y luego desarrollaría el Protocolo de Anuncio de Sesión (SAP), el Protocolo de Descripción de Sesión (SDP) y el Protocolo de Inicio de Sesión (SIP).
RTP está diseñado para la transferencia de medios de transmisión en tiempo real de extremo a extremo . El protocolo proporciona funciones para la compensación de fluctuaciones y la detección de pérdida de paquetes y entrega fuera de orden , que son comunes, especialmente durante las transmisiones UDP en una red IP. RTP permite la transferencia de datos a múltiples destinos a través de multidifusión IP . [3] RTP se considera el estándar principal para el transporte de audio/video en redes IP y se utiliza con un perfil asociado y un formato de carga útil. [4] El diseño de RTP se basa en el principio arquitectónico conocido como entramado de capa de aplicación donde las funciones del protocolo se implementan en la aplicación en lugar de en la pila de protocolos del sistema operativo .
Las aplicaciones de transmisión multimedia en tiempo real requieren la entrega oportuna de información y, a menudo, pueden tolerar cierta pérdida de paquetes para lograr este objetivo. Por ejemplo, la pérdida de un paquete en una aplicación de audio puede resultar en la pérdida de una fracción de segundo de datos de audio, que se puede hacer imperceptible con algoritmos de ocultación de errores adecuados . [5] El Protocolo de Control de Transmisión (TCP), aunque estandarizado para el uso de RTP, [6] no se utiliza normalmente en aplicaciones RTP porque TCP favorece la confiabilidad sobre la puntualidad. En cambio, la mayoría de las implementaciones de RTP se basan en el Protocolo de Datagramas de Usuario (UDP). [5] Otros protocolos de transporte diseñados específicamente para sesiones multimedia son SCTP [7] y DCCP , [8] aunque, a partir de 2012 [update], no se usaban ampliamente. [9]
El protocolo RTP fue desarrollado por el grupo de trabajo de transporte de audio y video de la organización de estándares IETF. El protocolo RTP se utiliza junto con otros protocolos como H.323 y RTSP . [4] La especificación RTP describe dos protocolos: RTP y RTCP. El protocolo RTP se utiliza para la transferencia de datos multimedia y el protocolo RTCP se utiliza para enviar periódicamente información de control y parámetros de calidad de servicio. [10]
El protocolo de transferencia de datos, RTP, transporta datos en tiempo real. La información proporcionada por este protocolo incluye marcas de tiempo (para sincronización), números de secuencia (para detección de pérdida y reordenamiento de paquetes) y el formato de carga útil que indica el formato codificado de los datos. [11] El protocolo de control, RTCP, se utiliza para la retroalimentación de calidad de servicio (QoS) y la sincronización entre los flujos de medios. El ancho de banda del tráfico RTCP en comparación con el RTP es pequeño, típicamente alrededor del 5%. [11] [12]
Las sesiones RTP se inician normalmente entre pares que se comunican mediante un protocolo de señalización, como H.323, el Protocolo de inicio de sesión (SIP), RTSP o Jingle ( XMPP ). Estos protocolos pueden utilizar el Protocolo de descripción de sesión para especificar los parámetros de las sesiones. [13]
Se establece una sesión RTP para cada flujo multimedia. Los flujos de audio y vídeo pueden utilizar sesiones RTP independientes, lo que permite a un receptor recibir selectivamente componentes de un flujo en particular. [14] El diseño de RTP y RTCP es independiente del protocolo de transporte. Las aplicaciones suelen utilizar UDP con números de puerto en el rango sin privilegios (1024 a 65535). [15] El Protocolo de transmisión de control de flujo (SCTP) y el Protocolo de control de congestión de datagramas (DCCP) pueden utilizarse cuando se desea un protocolo de transporte fiable. La especificación RTP recomienda números de puerto pares para RTP y el uso del siguiente número de puerto impar para la sesión RTCP asociada. [16] : 68 Se puede utilizar un solo puerto para RTP y RTCP en aplicaciones que multiplexan los protocolos. [17]
RTP es utilizado por aplicaciones multimedia en tiempo real como voz sobre IP , audio sobre IP , WebRTC y televisión por Protocolo de Internet .
RTP está diseñado para transportar una multitud de formatos multimedia, lo que permite el desarrollo de nuevos formatos sin revisar el estándar RTP. Para ello, la información requerida por una aplicación específica del protocolo no se incluye en el encabezado RTP genérico. Para cada clase de aplicación (por ejemplo, audio, vídeo), RTP define un perfil y formatos de carga útil asociados . [10] Cada instancia de RTP en una aplicación particular requiere un perfil y especificaciones de formato de carga útil. [16] : 71
El perfil define los códecs utilizados para codificar los datos de carga útil y su mapeo a códigos de formato de carga útil en el campo de protocolo Payload Type (PT) del encabezado RTP. Cada perfil está acompañado por varias especificaciones de formato de carga útil, cada una de las cuales describe el transporte de datos codificados particulares. [4] Ejemplos de formatos de carga útil de audio son G.711 , G.723 , G.726 , G.729 , GSM , QCELP , MP3 y DTMF , y ejemplos de cargas útiles de video son H.261 , H.263 , H.264 , H.265 y MPEG-1 / MPEG-2 . [18] El mapeo de flujos de audio/video MPEG-4 a paquetes RTP se especifica en RFC 3016, y las cargas útiles de video H.263 se describen en RFC 2429. [19]
Algunos ejemplos de perfiles RTP incluyen:
Los paquetes RTP se crean en la capa de aplicación y se entregan a la capa de transporte para su distribución. Cada unidad de datos multimedia RTP creada por una aplicación comienza con el encabezado del paquete RTP.
El encabezado RTP tiene un tamaño mínimo de 12 bytes. Después del encabezado, pueden estar presentes extensiones de encabezado opcionales. A continuación, se encuentra la carga útil RTP, cuyo formato está determinado por la clase particular de aplicación. [22] Los campos del encabezado son los siguientes:
Una aplicación multimedia funcional requiere otros protocolos y estándares utilizados junto con RTP. Protocolos como SIP, Jingle , RTSP, H.225 y H.245 se utilizan para el inicio, control y finalización de sesiones. Otros estándares, como H.264, MPEG y H.263, se utilizan para codificar los datos de carga útil según lo especificado por el perfil RTP aplicable. [26]
Un transmisor RTP captura los datos multimedia, luego los codifica, los enmarca y los transmite como paquetes RTP con marcas de tiempo apropiadas y números de secuencia y marcas de tiempo crecientes. El transmisor establece el campo de tipo de carga útil de acuerdo con la negociación de la conexión y el perfil RTP en uso. El receptor RTP detecta los paquetes faltantes y puede reordenarlos. Decodifica los datos multimedia en los paquetes de acuerdo con el tipo de carga útil y presenta la transmisión a su usuario. [26]