El Protocolo de inicio de sesión ( SIP ) es un protocolo de señalización utilizado para iniciar, mantener y finalizar sesiones de comunicación que incluyen aplicaciones de voz, video y mensajería. [1] SIP se utiliza en telefonía por Internet , en sistemas de telefonía IP privados, así como en llamadas a teléfonos móviles a través de LTE ( VoLTE ). [2]
El protocolo define el formato específico de los mensajes intercambiados y la secuencia de comunicaciones para la cooperación de los participantes. SIP es un protocolo basado en texto que incorpora muchos elementos del Protocolo de transferencia de hipertexto (HTTP) y del Protocolo simple de transferencia de correo (SMTP). [3] Una llamada establecida con SIP puede constar de múltiples flujos de medios , pero no se requieren flujos separados para aplicaciones, como mensajes de texto , que intercambian datos como carga útil en el mensaje SIP.
SIP funciona junto con varios otros protocolos que especifican y transportan los medios de la sesión. Por lo general, la negociación de parámetros y tipos de medios y la configuración de medios se realizan con el Protocolo de descripción de sesión (SDP), que se transporta como carga útil en mensajes SIP. SIP está diseñado para ser independiente del protocolo de la capa de transporte subyacente y puede usarse con el Protocolo de datagramas de usuario (UDP), el Protocolo de control de transmisión (TCP) y el Protocolo de transmisión de control de flujo (SCTP). Para transmisiones seguras de mensajes SIP a través de enlaces de red inseguros, el protocolo puede cifrarse con Transport Layer Security (TLS). Para la transmisión de flujos de medios (voz, video), la carga útil SDP transportada en mensajes SIP generalmente emplea el Protocolo de transporte en tiempo real (RTP) o el Protocolo de transporte seguro en tiempo real (SRTP).
SIP fue diseñado originalmente por Mark Handley , Henning Schulzrinne , Eve Schooler y Jonathan Rosenberg en 1996 para facilitar el establecimiento de sesiones multimedia de multidifusión en Mbone . El protocolo se estandarizó como RFC 2543 en 1999. En noviembre de 2000, SIP fue aceptado como protocolo de señalización 3GPP y elemento permanente de la arquitectura del Subsistema Multimedia IP (IMS) para servicios multimedia de transmisión por secuencias basados en IP en redes celulares . En junio de 2002, la especificación fue revisada en RFC 3261 [4] y desde entonces se han publicado varias extensiones y aclaraciones. [5]
SIP fue diseñado para proporcionar un protocolo de señalización y configuración de llamadas para comunicaciones basadas en IP que admitan las funciones y características de procesamiento de llamadas presentes en la red telefónica pública conmutada (PSTN) con la visión de admitir nuevas aplicaciones multimedia. Se ha ampliado para videoconferencias , distribución de medios en streaming , mensajería instantánea , información de presencia , transferencia de archivos , fax por Internet y juegos en línea . [1] [6] [7]
SIP se distingue por sus defensores por tener raíces en la comunidad de Internet más que en la industria de las telecomunicaciones . SIP ha sido estandarizado principalmente por Internet Engineering Task Force (IETF), mientras que otros protocolos, como H.323 , se han asociado tradicionalmente con la Unión Internacional de Telecomunicaciones (UIT).
SIP sólo participa en las operaciones de señalización de una sesión de comunicación multimedia y se utiliza principalmente para configurar y finalizar llamadas de voz o vídeo. SIP se puede utilizar para establecer sesiones bipartitas ( unicast ) o multipartitas ( multicast ). También permite modificar convocatorias existentes. La modificación puede implicar cambiar direcciones o puertos , invitar a más participantes y agregar o eliminar transmisiones multimedia. SIP también ha encontrado aplicaciones en aplicaciones de mensajería, como mensajería instantánea y suscripción y notificación de eventos.
SIP funciona en conjunto con varios otros protocolos que especifican el formato y la codificación de los medios y que transportan los medios una vez que se configura la llamada. Para el establecimiento de llamadas, el cuerpo de un mensaje SIP contiene una unidad de datos del Protocolo de descripción de sesión (SDP), que especifica el formato de medios, el códec y el protocolo de comunicación de medios. Los flujos de medios de voz y vídeo normalmente se transportan entre los terminales utilizando el Protocolo de transporte en tiempo real (RTP) o el Protocolo de transporte seguro en tiempo real (SRTP). [3] [8]
Todos los recursos de una red SIP, como agentes de usuario, enrutadores de llamadas y buzones de correo de voz, se identifican mediante un identificador uniforme de recursos (URI). La sintaxis del URI sigue la sintaxis estándar general que también se utiliza en servicios web y correo electrónico. [9] El esquema de URI utilizado para SIP es sip y un URI SIP típico tiene la forma sip:nombredeusuario@nombrededominio o sip:nombredeusuario@puertohost , donde el nombre de dominio requiere registros SRV DNS para ubicar los servidores para el dominio SIP, mientras que el puertohost puede ser una IP. dirección o un nombre de dominio completo del host y el puerto. Si se requiere una transmisión segura , se utiliza el esquema sips . [10] [11]
SIP emplea elementos de diseño similares al modelo de transacción de solicitud y respuesta HTTP. [12] Cada transacción consta de una solicitud de cliente que invoca un método o función particular en el servidor y al menos una respuesta. SIP reutiliza la mayoría de los campos de encabezado, reglas de codificación y códigos de estado de HTTP, proporcionando un formato basado en texto legible.
SIP puede ser transportado por varios protocolos de capa de transporte , incluido el Protocolo de control de transmisión (TCP), el Protocolo de datagramas de usuario (UDP) y el Protocolo de transmisión de control de flujo (SCTP). [13] [14] Los clientes SIP suelen utilizar TCP o UDP en los números de puerto 5060 o 5061 para el tráfico SIP a servidores y otros puntos finales. El puerto 5060 se usa comúnmente para tráfico de señalización no cifrado, mientras que el puerto 5061 generalmente se usa para tráfico cifrado con Transport Layer Security (TLS).
Las redes de telefonía basadas en SIP a menudo implementan funciones de procesamiento de llamadas del Sistema de señalización 7 (SS7), para el cual existen extensiones especiales del protocolo SIP, aunque los dos protocolos en sí son muy diferentes. SS7 es un protocolo centralizado, caracterizado por una compleja arquitectura de red central y terminales tontos (auriculares telefónicos tradicionales). SIP es un protocolo cliente-servidor de pares equipotentes. Las funciones SIP se implementan en los puntos finales que se comunican, mientras que la arquitectura tradicional SS7 se utiliza sólo entre centros de conmutación.
Los elementos de red que utilizan el protocolo de inicio de sesión para la comunicación se denominan agentes de usuario SIP . Cada agente de usuario (UA) realiza la función de un cliente de agente de usuario (UAC) cuando solicita una función de servicio, y la de un servidor de agente de usuario (UAS) cuando responde a una solicitud. Por lo tanto, dos puntos finales SIP cualesquiera pueden, en principio, funcionar sin ninguna infraestructura SIP intermedia. Sin embargo, por razones operativas de la red, para proporcionar servicios públicos a los usuarios y para servicios de directorio, SIP define varios tipos específicos de elementos de servidor de red. Cada uno de estos elementos de servicio también se comunica dentro del modelo cliente-servidor implementado en clientes y servidores de agentes de usuario. [15]
Un agente de usuario es un punto final de red lógico que envía o recibe mensajes SIP y administra sesiones SIP. Los agentes de usuario tienen componentes de cliente y servidor. El cliente agente de usuario (UAC) envía solicitudes SIP. El servidor de agente de usuario (UAS) recibe solicitudes y devuelve una respuesta SIP. A diferencia de otros protocolos de red que fijan las funciones de cliente y servidor, por ejemplo, en HTTP, en el que un navegador web sólo actúa como cliente y nunca como servidor, SIP requiere que ambos pares implementen ambas funciones. Las funciones de UAC y UAS solo duran mientras dura una transacción SIP. [6]
Un teléfono SIP es un teléfono IP que implementa funciones de cliente y servidor de un agente de usuario SIP y proporciona las funciones de llamada tradicionales de un teléfono, como marcar, contestar, rechazar, retener llamadas y transferir llamadas. [16] [17] Los teléfonos SIP pueden implementarse como un dispositivo de hardware o como un softphone . A medida que los proveedores implementan cada vez más SIP como plataforma de telefonía estándar, la distinción entre teléfonos SIP basados en hardware y basados en software se vuelve borrosa y los elementos SIP se implementan en las funciones básicas de firmware de muchos dispositivos de comunicaciones con capacidad IP, como los teléfonos inteligentes .
En SIP, como en HTTP, el agente de usuario puede identificarse mediante un campo de encabezado de mensaje ( User-Agent ), que contiene una descripción de texto del software, hardware o el nombre del producto. El campo de agente de usuario se envía en mensajes de solicitud, lo que significa que el servidor SIP receptor puede evaluar esta información para realizar la configuración específica del dispositivo o la activación de funciones. Los operadores de elementos de red SIP a veces almacenan esta información en portales de cuentas de clientes, [18] donde puede ser útil para diagnosticar problemas de compatibilidad SIP o para mostrar el estado del servicio.
Un servidor proxy es un servidor de red con componentes UAC y UAS que funciona como una entidad intermediaria con el fin de realizar solicitudes en nombre de otros elementos de la red. Un servidor proxy desempeña principalmente la función de enrutamiento de llamadas; envía solicitudes SIP a otra entidad más cercana al destino. Los servidores proxy también son útiles para hacer cumplir políticas, como por ejemplo para determinar si un usuario puede realizar una llamada. Un proxy interpreta y, si es necesario, reescribe partes específicas de un mensaje de solicitud antes de reenviarlo.
Los servidores proxy SIP que enrutan mensajes a más de un destino se denominan servidores proxy bifurcados. La bifurcación de una solicitud SIP establece múltiples diálogos a partir de una única solicitud. Por lo tanto, se puede responder una llamada desde uno de los múltiples puntos finales SIP. Para la identificación de múltiples diálogos, cada diálogo tiene un identificador con contribuciones de ambos puntos finales.
Un servidor de redireccionamiento es un servidor de agente de usuario que genera respuestas 3xx (redireccionamiento) a las solicitudes que recibe, indicando al cliente que se comunique con un conjunto alternativo de URI. Un servidor de redireccionamiento permite a los servidores proxy dirigir invitaciones a sesiones SIP a dominios externos.
Un registrador es un punto final SIP que proporciona un servicio de ubicación. Acepta solicitudes de REGISTRO, registrando la dirección y otros parámetros del agente de usuario. Para solicitudes posteriores, proporciona un medio esencial para localizar posibles pares de comunicación en la red. El servicio de ubicación vincula una o más direcciones IP al URI SIP del agente de registro. Múltiples agentes de usuario pueden registrarse para el mismo URI, con el resultado de que todos los agentes de usuario registrados reciben las llamadas al URI.
Los registradores SIP son elementos lógicos y, a menudo, están ubicados junto con los servidores proxy SIP. Para mejorar la escalabilidad de la red, los servicios de ubicación pueden ubicarse en un servidor de redireccionamiento.
Los controladores de borde de sesión (SBC) sirven como intermediarios entre los agentes de usuario y los servidores SIP para varios tipos de funciones, incluida la ocultación de la topología de la red y la asistencia en el recorrido NAT . Los SBC son una solución diseñada de forma independiente y no se mencionan en el RFC de SIP.
Las puertas de enlace se pueden utilizar para interconectar una red SIP con otras redes, como la PSTN, que utilizan diferentes protocolos o tecnologías.
SIP es un protocolo basado en texto con una sintaxis similar a la de HTTP. Hay dos tipos diferentes de mensajes SIP: solicitudes y respuestas. La primera línea de una solicitud tiene un método , que define la naturaleza de la solicitud, y un Request-URI, que indica dónde se debe enviar la solicitud. [19] La primera línea de una respuesta tiene un código de respuesta .
Las solicitudes inician una funcionalidad del protocolo. Son enviados por un cliente agente de usuario al servidor y se responden con una o más respuestas SIP , que devuelven un código de resultado de la transacción y generalmente indican el éxito, el fracaso u otro estado de la transacción.
Las respuestas son enviadas por el servidor del agente de usuario indicando el resultado de una solicitud recibida. Se reconocen varias clases de respuestas, determinadas por el rango numérico de códigos de resultado: [20]
SIP define un mecanismo de transacción para controlar los intercambios entre los participantes y entregar mensajes de manera confiable. Una transacción es un estado de una sesión, que está controlada por varios temporizadores. Las transacciones del cliente envían solicitudes y las transacciones del servidor responden a esas solicitudes con una o más respuestas. Las respuestas pueden incluir respuestas provisionales con un código de respuesta en el formato 1xx y una o varias respuestas finales (2xx – 6xx).
Las transacciones se clasifican además en tipo invitación o tipo no invitación . Las transacciones de invitación se diferencian en que pueden establecer una conversación de larga duración, denominada diálogo en SIP, y por lo tanto incluyen un reconocimiento (ACK) de cualquier respuesta final que no falle, por ejemplo, 200 OK .
El protocolo de inicio de sesión para mensajería instantánea y extensiones de aprovechamiento de presencia (SIMPLE) es el conjunto de estándares basado en SIP para mensajería instantánea e información de presencia . El protocolo de retransmisión de sesión de mensajes (MSRP) permite sesiones de mensajes instantáneos y transferencia de archivos.
La comunidad de desarrolladores SIP se reúne periódicamente en conferencias organizadas por SIP Forum para probar la interoperabilidad de las implementaciones SIP. [22] El lenguaje de especificación de pruebas TTCN-3 , desarrollado por un grupo de trabajo de ETSI (STF 196), se utiliza para especificar pruebas de conformidad para implementaciones SIP. [23]
Al desarrollar software SIP o implementar una nueva infraestructura SIP, es importante probar la capacidad de los servidores y las redes IP para manejar cierta carga de llamadas: número de llamadas simultáneas y número de llamadas por segundo. El software de prueba de rendimiento SIP se utiliza para simular el tráfico SIP y RTP para ver si el servidor y la red IP son estables bajo la carga de llamadas. [24] El software mide indicadores de rendimiento como retraso de respuesta, relación respuesta/convulsión , fluctuación de RTP y pérdida de paquetes , tiempo de retraso de ida y vuelta .
Conexión SIP es un término de marketing para los servicios de voz sobre Protocolo de Internet (VoIP) ofrecidos por muchos proveedores de servicios de telefonía por Internet (ITSP). El servicio proporciona enrutamiento de llamadas telefónicas desde el sistema telefónico de centralita privada (PBX) de un cliente a la PSTN. Dichos servicios pueden simplificar la infraestructura del sistema de información corporativa al compartir el acceso a Internet para voz y datos, y eliminar el costo de los circuitos telefónicos de Interfaz de Tarifa Básica (BRI) o Interfaz de Tarifa Primaria (PRI).
SIP Trunking es un término de marketing similar que se prefiere cuando el servicio se utiliza para simplificar una infraestructura de telecomunicaciones al compartir el circuito de acceso del operador para el tráfico de voz, datos e Internet, eliminando al mismo tiempo la necesidad de circuitos PRI. [25] [26]
Las cámaras de videovigilancia habilitadas para SIP pueden iniciar llamadas para alertar al operador de eventos, como el movimiento de objetos en un área protegida.
SIP se utiliza en audio sobre IP para aplicaciones de transmisión donde proporciona un medio interoperable para que interfaces de audio de diferentes fabricantes establezcan conexiones entre sí. [27]
La División de Tecnologías Avanzadas de Redes del Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU. proporciona una implementación Java de dominio público [28] que sirve como implementación de referencia para el estándar. La implementación puede funcionar en escenarios de servidor proxy o agente de usuario y se ha utilizado en numerosos proyectos comerciales y de investigación. Es compatible con RFC 3261 en su totalidad y con una serie de RFC de extensión, incluidos RFC 6665 (notificación de eventos) y RFC 3262 (respuestas provisionales confiables).
Existen muchas otras implementaciones SIP comerciales y de código abierto. Consulte Lista de software SIP .
SIP-I, Protocolo de inicio de sesión con ISUP encapsulado , es un protocolo utilizado para crear, modificar y finalizar sesiones de comunicación basadas en ISUP utilizando redes SIP e IP. Los servicios que utilizan SIP-I incluyen voz, videotelefonía, fax y datos. SIP-I y SIP-T [29] son dos protocolos con características similares, en particular para permitir que los mensajes ISUP se transporten a través de redes SIP. Esto conserva todos los detalles disponibles en el encabezado ISUP. [a] SIP-I fue definido por el ITU-T , mientras que SIP-T fue definido por el IETF . [30]
Las preocupaciones sobre la seguridad de las llamadas a través de la Internet pública se han solucionado mediante el cifrado del protocolo SIP para una transmisión segura . El esquema URI SIPS se utiliza para exigir que la comunicación SIP esté protegida con Transport Layer Security (TLS). Los URI de SIPS toman el formato sips:[email protected].
El cifrado de extremo a extremo de SIP solo es posible si existe una conexión directa entre los puntos finales de comunicación. Si bien se puede realizar una conexión directa a través de SIP de igual a igual o mediante una VPN entre los puntos finales, la mayoría de las comunicaciones SIP implican múltiples saltos, siendo el primer salto desde un agente de usuario al ITSP del agente de usuario . Para el caso de múltiples saltos, SIPS sólo asegurará el primer salto; los saltos restantes normalmente no estarán protegidos con TLS y la comunicación SIP será insegura. Por el contrario, el protocolo HTTPS proporciona seguridad de un extremo a otro, ya que se realiza con una conexión directa y no implica la noción de saltos.
Los flujos de medios (audio y vídeo), que son conexiones independientes del flujo de señalización SIPS, pueden cifrarse mediante SRTP. El intercambio de claves para SRTP se realiza con SDES ( RFC 4568) o con ZRTP ( RFC 6189). Cuando se utiliza SDES, las claves se transmitirán a través de SIP inseguro a menos que se utilice SIPS. También se puede agregar un intercambio MIKEY ( RFC 3830) a SIP para determinar las claves de sesión para usar con SRTP.
{{citation}}
: CS1 maint: ref duplicates default (link){{citation}}
: CS1 maint: ref duplicates default (link)