URL

Un localizador uniforme de recursos ( URL ), conocido coloquialmente como dirección en la Web , ^[1] es una referencia a un recurso que especifica su ubicación en una red informática y un mecanismo para recuperarlo. Una URL es un tipo específico de Identificador uniforme de recursos (URI), ^[2]^[3] aunque mucha gente usa los dos términos indistintamente. ^[4]^[a] Las URL se utilizan con mayor frecuencia para hacer referencia a páginas web ( HTTP / HTTPS ), pero también se utilizan para transferencia de archivos ( FTP ), correo electrónico ( mailto ), acceso a bases de datos ( JDBC ) y muchas otras aplicaciones.

La mayoría de los navegadores web muestran la URL de una página web encima de la página en una barra de direcciones . Una URL típica podría tener el formato http://www.example.com/index.html, que indica un protocolo ( http), un nombre de host ( www.example.com) y un nombre de archivo ( index.html).

Historia

Los localizadores uniformes de recursos fueron definidos en RFC 1738 en 1994 por Tim Berners-Lee , el inventor de la World Wide Web , y el grupo de trabajo URI del Internet Engineering Task Force (IETF), ^[7] como resultado de la colaboración iniciada en el Sesión de IETF Living Documents sobre pájaros del mismo plumaje en 1992. ^[7]^[8]

El formato combina el sistema preexistente de nombres de dominio (creado en 1985) con la sintaxis de ruta de archivo , donde se utilizan barras para separar directorios y nombres de archivos . Ya existían convenciones en las que los nombres de los servidores podían tener como prefijo las rutas completas de los archivos, precedidos por una doble barra ( //). ^[9]

Más tarde, Berners-Lee lamentó el uso de puntos para separar las partes del nombre de dominio dentro de los URI , deseando haber usado barras diagonales en todas partes, ^[9] y también dijo que, dados los dos puntos que siguen al primer componente de un URI, los dos las barras diagonales antes del nombre de dominio eran innecesarias. ^[10]

Los primeros colaboradores de WorldWideWeb , incluido Berners-Lee, propusieron originalmente el uso de UDI: identificadores universales de documentos. Un primer borrador (1993) de la Especificación HTML ^[11] hacía referencia a los localizadores de recursos "universales". Esto se eliminó en algún momento entre junio de 1994 ( RFC 1630) y octubre de 1994 (draft-ietf-uri-url-08.txt). ^[12] En su libro Weaving the Web , Berners-Lee enfatiza su preferencia por la inclusión original de "universal" en la expansión en lugar de la palabra "uniforme", a la que luego se cambió, y da un breve relato de la argumento que condujo al cambio.

Sintaxis

Cada URL HTTP se ajusta a la sintaxis de un URI genérico. La sintaxis genérica de URI consta de cinco componentes organizados jerárquicamente en orden de importancia decreciente de izquierda a derecha: ^[13]

URI = esquema ":" ["//" autoridad] ruta ["?" consulta] [fragmento "#"]

Un componente no está definido si tiene un delimitador asociado y el delimitador no aparece en el URI; los componentes del esquema y la ruta siempre están definidos. ^[14] Un componente está vacío si no tiene caracteres; el componente del esquema siempre no está vacío. ^[13]

El componente de autoridad consta de subcomponentes :

autoridad = [información de usuario "@"] host [":" puerto]

Esto se representa en un diagrama de sintaxis como:

La URI comprende:

Un no vacíocomponente del esquema seguido de dos puntos (:), que consta de una secuencia de caracteres que comienza con una letra y seguida de cualquier combinación de letras, dígitos, más (+), punto (.) o guión (-). Aunque los esquemas no distinguen entre mayúsculas y minúsculas, la forma canónica es minúscula y los documentos que especifican esquemas deben hacerlo con letras minúsculas. Ejemplos de esquemas popularesincluyenhttp,https,ftp,mailto,fileydata. ircLos esquemas URI deben registrarse ante laAutoridad de Números Asignados de Internet (IANA), aunque en la práctica se utilizan esquemas no registrados. ^[b]
Un opcionalcomponente de autoridad precedido por dos barras (//), que comprende:
- Un opcionalsubcomponente userinfo seguido de un símbolo arroba (@), que puede consistir en unnombre de usuarioy unacontraseñaprecedida por dos puntos (:). El uso del formatousername:passworden el subcomponente userinfo está obsoleto por razones de seguridad. Las aplicaciones no deben representar como texto sin cifrar ningún dato después de los primeros dos puntos (:) que se encuentren dentro de un subcomponente de información de usuario a menos que los datos después de los dos puntos sean una cadena vacía (que indica que no hay contraseña).
- Asubcomponente de host , que consta de un nombre registrado (incluido, entre otros, unnombre de host) o unadirección IP. Las direcciones IPv4deben estar ennotación punto-decimalyIPv6deben estar entre corchetes ([]). ^[16]^[c]
- Un opcionalsubcomponente de puerto precedido por dos puntos (:), que consta de dígitos decimales.
AComponente de ruta/ , que consta de una secuencia de segmentos de ruta separados por una barra diagonal ( ). Siempre se define una ruta para un URI, aunque la ruta definida puede estar vacía (longitud cero). Un segmento también puede estar vacío, lo que da como resultado dos barras diagonales (//) consecutivas en el componente de ruta. Un componente de ruta puede parecerse o asignarse exactamente a unaruta del sistema de archivos, pero no siempre implica una relación con una. Si se define un componente de autoridad, entonces el componente de ruta debe estar vacío o comenzar con una barra diagonal (/). Si un componente de autoridad no está definido, entonces la ruta no puede comenzar con un segmento vacío, es decir, con dos barras (//), ya que los siguientes caracteres se interpretarían como un componente de autoridad. ^[18]

Por convención, en los URI http y https , la última parte de una ruta se denominapathinfo y es opcional. Está compuesto por cero o más segmentos de ruta que no se refieren a un nombre de recurso físico existente (por ejemplo, un archivo, un programa de módulo interno o un programa ejecutable) sino a una parte lógica (por ejemplo, un comando o una parte calificadora) que tiene que pasarse por separado a la primera parte de la ruta que identifica un módulo o programa ejecutable administrado por unservidor web; esto se usa a menudo para seleccionar contenido dinámico (un documento, etc.) o para adaptarlo según lo solicitado (ver también:CGIy PATH_INFO, etc.).

Ejemplo:

URI:"http://www.example.com/questions/3456/my-document"

donde: "/questions"es la primera parte de la ruta (un módulo o programa ejecutable) y "/3456/my-document"es la segunda parte de la ruta denominada pathinfo , que se pasa al módulo ejecutable o programa denominado "/questions"para seleccionar el documento solicitado.

Un URI http o https que contiene una parte de información de ruta sin una parte de consulta también puede denominarse " URL limpia " cuya última parte puede ser un " slug ".

Un opcionalComponente de consulta precedido por un signo de interrogación (?), que consta de unacadena de consultade datos no jerárquicos. Su sintaxis no está bien definida, pero por convención suele ser una secuencia depares atributo-valorseparados por undelimitador.
Un opcionalComponente del fragmento precedido por un hash(#). El fragmento contiene unidentificador de fragmentoque proporciona dirección a un recurso secundario, como el encabezado de una sección de un artículo identificado por el resto del URI. Cuando el recurso principal es unHTML, el fragmento suele ser unidatributode un elemento específico y los navegadores web desplazarán este elemento para mostrarlo.

Un navegador web normalmente eliminará la referencia a una URL realizando una solicitud HTTP al host especificado, de forma predeterminada en el puerto número 80. Las URL que utilizan el httpsesquema requieren que las solicitudes y respuestas se realicen a través de una conexión segura al sitio web .

URL internacionalizada

Los usuarios de Internet están distribuidos por todo el mundo utilizando una amplia variedad de idiomas y alfabetos, y esperan poder crear URL en sus propios alfabetos locales. Un identificador de recursos internacionalizado (IRI) es una forma de URL que incluye caracteres Unicode . Todos los navegadores modernos admiten IRI. Las partes de la URL que requieren un tratamiento especial para diferentes alfabetos son el nombre de dominio y la ruta. ^[20]^[21]

El nombre de dominio en el IRI se conoce como Nombre de Dominio Internacionalizado (IDN). El software web e Internet convierte automáticamente el nombre de dominio en punycode utilizable por el Sistema de nombres de dominio ; por ejemplo, la URL china http://例子.卷筒纸se convierte en http://xn--fsqu00a.xn--3lr804guic/. Indica xn--que el carácter no era originalmente ASCII . ^[22]

El usuario también puede especificar el nombre de la ruta URL en el sistema de escritura local. Si aún no está codificado, se convierte a UTF-8 y cualquier carácter que no forme parte del conjunto de caracteres básico de la URL se escapa como hexadecimal usando codificación porcentual ; por ejemplo, la URL japonesa http://example.com/引き割り.htmlse convierte en http://example.com/%E5%BC%95%E3%81%8D%E5%89%B2%E3%82%8A.html. La computadora de destino decodifica la dirección y muestra la página. ^[20]

URL relativas al protocolo

Los enlaces relativos al protocolo (PRL), también conocidos como URL relativos al protocolo (PRURL), son URL que no tienen ningún protocolo especificado. Por ejemplo, //example.comutilizará el protocolo de la página actual, normalmente HTTP o HTTPS. ^[23]^[24]

Ver también

Hipervínculo
PURL : URL persistente
CURIE (URI compacta)
fragmento de URI
Localizador de recursos de Internet (IRL)
Identificador de recursos internacionalizado (IRI)
Limpiar URL
Error tipográfico
Identificador uniforme de recursos
normalización de URI
Uso de barras diagonales en redes

Notas

^ Una URL implica el medio para acceder a un recurso indicado y se indica mediante un protocolo o mecanismo de acceso, lo que no ocurre con todos los URI. ^[5]^[4] Así http://www.example.comes una URL, mientras que www.example.comno lo es. ^[6]
^ Los procedimientos para registrar nuevos esquemas de URI se definieron originalmente en 1999 mediante RFC 2717 y ahora están definidos por RFC 7595, publicado en junio de 2015. ^[15]
^ Para los URI relacionados con recursos en la World Wide Web, algunos navegadores web permiten .0eliminar partes de la notación decimal con puntos o utilizar direcciones IP enteras sin formato. ^[17]
^ El histórico RFC 1866 (obsoleto por RFC 2854) anima a los autores de CGI a admitir ';' además de '&'. ^[19]

Citas

^ W3C (2009).
^ "Barras diagonales y inversas en las URL". zzz.buzz . Archivado desde el original el 4 de septiembre de 2018 . Consultado el 19 de septiembre de 2018 .
^ RFC 3986 (2005).
^ ab Grupo de interés de planificación conjunto W3C/IETF URI (2002).
^ RFC 2396 (1998).
^ Miessler, Daniel. "La diferencia entre URL y URI". Archivado desde el original el 17 de marzo de 2017 . Consultado el 16 de marzo de 2017 .
^ ab W3C (1994).
^ IETF (1992).
^ ab Berners-Lee (2015).
^ Noticias de la BBC (2009).
^ Berners-Lee, Tim ; Connolly, Daniel "Dan" (marzo de 1993). Lenguaje de marcado de hipertexto (borrador RFCxxx) (Informe técnico). pag. 28. Archivado desde el original el 23 de octubre de 2017 . Consultado el 23 de octubre de 2017 .
^ Berners-Lee, Tim ; Master, Larry ; McCahill, Mark Perry (octubre de 1994). Localizadores uniformes de recursos (URL) (Informe técnico).(Este borrador de Internet se publicó como estándar propuesto RFC, RFC 1738 (1994)) Citado en Ang, CS; Martín, DC (enero de 1995). Interfaz de componente constituyente ++ (informe técnico). Biblioteca y Centro para la Gestión del Conocimiento de la UCSF. Archivado desde el original el 23 de octubre de 2017 . Consultado el 23 de octubre de 2017 .
^ ab RFC 3986 (2005), §3.
^ RFC 3986 (2005), §5.2.1.
^ IETF (2015).
^ RFC 3986 (2005), §3.2.2.
^ Lorenzo (2014).
^ RFC 2396 (1998), §3.3.
^ RFC 1866 (1995), §8.2.1.
^ ab W3C (2008).
^ W3C (2014).
^ IANA (2003).
^ Glaser, JD (10 de marzo de 2014). Desarrollo seguro para aplicaciones móviles: cómo diseñar y codificar aplicaciones móviles seguras con PHP y JavaScript (1ª ed.). Prensa CRC . pag. 193.ISBN 978-1-48220903-7. Consultado el 12 de octubre de 2015 .
^ Schafer, Steven M. (2011). Biblia HTML, XHTML y CSS (1ª ed.). John Wiley e hijos . pag. 124.ISBN 978-1-11808130-3. Consultado el 12 de octubre de 2015 .

Referencias

"Berners-Lee" perdón "por las barras". Noticias de la BBC . 2009-10-14. Archivado desde el original el 5 de junio de 2020 . Consultado el 14 de febrero de 2010 .
"Documentos vivos Acta BoF". Consorcio Mundial de la red . 1992-03-18. Archivado desde el original el 22 de noviembre de 2012 . Consultado el 26 de diciembre de 2011 .
Berners-Lee, Tim (21 de marzo de 1994). "Localizadores uniformes de recursos (URL): una sintaxis para la expresión de información de acceso de objetos en la red". Consorcio Mundial de la red . Archivado desde el original el 9 de septiembre de 2015 . Consultado el 13 de septiembre de 2015 .
Berners-Lee, Tim ; Master, Larry ; McCahill, Mark Perry (diciembre de 1994). Localizadores uniformes de recursos (URL). doi : 10.17487/RFC1738 . RFC 1738 . Consultado el 31 de agosto de 2015 .
Berners-Lee, Tim (2015) [2000]. "¿Por qué //, #, etc.?". Preguntas frecuentes . Consorcio Mundial de la red . Archivado desde el original el 14 de mayo de 2020 . Consultado el 3 de febrero de 2010 .
Connolly, Daniel "Dan" ; Sperberg-McQueen, C. Michael , eds. (21 de mayo de 2009). "Direcciones web en HTML 5". Consorcio Mundial de la red . Archivado desde el original el 10 de julio de 2015 . Consultado el 13 de septiembre de 2015 .
IANA (14 de febrero de 2003). "Finalización de la selección de la IANA del prefijo IDNA". IETF-Anuncio de lista de correo . Archivado desde el original el 8 de diciembre de 2004 . Consultado el 3 de septiembre de 2015 .
Berners-Lee, Tim ; Connolly, Daniel "Dan" (noviembre de 1995). "Lenguaje de marcado de hipertexto - 2.0". Rastreador de datos del IETF . Grupo de Trabajo de Ingeniería de Internet . doi : 10.17487/RFC1866 . S2CID 6628570. Archivado desde el original el 27 de agosto de 2011 . Consultado el 13 de septiembre de 2015 .
Berners-Lee, Tim ; Fielding, Roy T .; Masinter, Larry (agosto de 1998). Identificadores uniformes de recursos (URI): sintaxis genérica. doi : 10.17487/RFC2396 . RFC 2396 . Consultado el 31 de agosto de 2015 .
Hansen, Tony; Hardie, Ted (junio de 2015). Thaler, Dave (ed.). Directrices y procedimientos de registro para esquemas URI. doi : 10.17487/RFC7595 . RFC 7595.
Comida, Michael ; Denenberg, Ray, eds. (Agosto de 2002). Informe del Grupo de interés conjunto de planificación de URI del W3C/IETF: Identificadores uniformes de recursos (URI), URL y nombres uniformes de recursos (URN): aclaraciones y recomendaciones. doi : 10.17487/RFC3305 . RFC 3305 . Consultado el 13 de septiembre de 2015 .
Berners-Lee, Tim ; Fielding, Roy T .; Masinter, Larry (enero de 2005). Identificadores uniformes de recursos (URI): sintaxis genérica. doi : 10.17487/RFC3986 . RFC 3986 . Consultado el 31 de agosto de 2015 .
Berners-Lee, Tim ; Fielding, Roy T .; Masinter, Larry (enero de 2005). Identificadores uniformes de recursos (URI): sintaxis genérica, sección 3, componentes de sintaxis. doi : 10.17487/RFC3986 . RFC 3986 . Consultado el 31 de agosto de 2015 .Archivado el 21 de mayo de 2019 en Wayback Machine.
"Introducción a las direcciones web multilingües". 2008-05-09. Archivado desde el original el 5 de enero de 2015 . Consultado el 11 de enero de 2015 .
Phillip, A. (2014). "¿Qué está pasando con las" URL internacionales"". Consorcio Mundial de la red . Archivado desde el original el 17 de febrero de 2015 . Consultado el 11 de enero de 2015 .
Lawrence, Eric (6 de marzo de 2014). "Arcanos del navegador: literales de IP en URL". Microsoft aprende . Archivado desde el original el 22 de junio de 2020 . Consultado el 22 de junio de 2020 .

enlaces externos

Especificación de URL en WHATWG