XPath ( XML Path Language ) es un lenguaje de expresión diseñado para admitir la consulta o transformación de documentos XML . Fue definido por el World Wide Web Consortium (W3C) en 1999, [1] y se puede utilizar para calcular valores (por ejemplo, cadenas , números o valores booleanos ) a partir del contenido de un documento XML. El soporte para XPath existe en aplicaciones que admiten XML, como navegadores web y muchos lenguajes de programación.
El lenguaje XPath se basa en una representación en árbol del documento XML y proporciona la capacidad de navegar por el árbol, seleccionando nodos según una variedad de criterios. [2] [3] En el uso popular (aunque no en la especificación oficial), a menudo se hace referencia a una expresión XPath simplemente como "un XPath".
Originalmente motivados por el deseo de proporcionar un modelo de sintaxis y comportamiento común entre XPointer y XSLT , los subconjuntos del lenguaje de consulta XPath se utilizan en otras especificaciones del W3C como XML Schema , XForms y el Internationalization Tag Set (ITS) .
XPath ha sido adoptado por varias bibliotecas y herramientas de procesamiento XML, muchas de las cuales también ofrecen selectores CSS , otro estándar del W3C, como una alternativa más simple a XPath.
Existen varias versiones de XPath en uso. XPath 1.0 se publicó en 1999, XPath 2.0 en 2007 (con una segunda edición en 2010), XPath 3.0 en 2014 y XPath 3.1 en 2017. Sin embargo, XPath 1.0 sigue siendo la versión más ampliamente disponible. [1]
for
expresión que es una versión reducida de las expresiones " FLWOR " de XQuery. Es posible describir el lenguaje enumerando las partes de XQuery que deja fuera: los principales ejemplos son el prólogo de la consulta, los constructores de elementos y atributos, el resto de la sintaxis "FLWOR" y la typeswitch
expresión.El tipo de expresión más importante en XPath es una ruta de ubicación . Una ruta de ubicación consta de una secuencia de pasos de ubicación . Cada paso de ubicación tiene tres componentes:
Una expresión XPath se evalúa con respecto a un nodo de contexto . Un especificador de eje como 'child' o 'descendant' especifica la dirección en la que se debe navegar desde el nodo de contexto. La prueba de nodo y el predicado se utilizan para filtrar los nodos especificados por el especificador de eje: por ejemplo, la prueba de nodo 'A' requiere que todos los nodos a los que se navegue tengan la etiqueta 'A'. Se puede utilizar un predicado para especificar que los nodos seleccionados tengan ciertas propiedades, que se especifican mediante las propias expresiones XPath.
La sintaxis XPath se presenta en dos versiones: la sintaxis abreviada , que es más compacta y permite escribir y leer XPaths fácilmente mediante caracteres y construcciones intuitivas y, en muchos casos, familiares. La sintaxis completa es más detallada, pero permite especificar más opciones y es más descriptiva si se lee con atención.
La notación compacta permite muchos valores predeterminados y abreviaturas para casos comunes. Dado el código fuente XML que contiene al menos
<A> <B> <C/> </B> </A>
El XPath más simple tiene una forma como esta:
/A/B/C
que selecciona elementos C que son hijos de elementos B que son hijos del elemento A que forma el elemento más externo del documento XML. La sintaxis XPath está diseñada para imitar la sintaxis de ruta de archivo de estilo Unix y URI ( Uniform Resource Identifier ) .
Se pueden construir expresiones más complejas especificando un eje distinto del eje "secundario" predeterminado, una prueba de nodo distinta de un nombre simple o predicados, que se pueden escribir entre corchetes después de cualquier paso. Por ejemplo, la expresión
A//B/*[1]
selecciona el primer hijo (' *[1]
'), cualquiera que sea su nombre, de cada elemento B que sea en sí mismo un hijo u otro descendiente más profundo (' //
') de un elemento A que sea un hijo del nodo de contexto actual (la expresión no comienza con un ' /
'). El predicado [1]
se vincula más estrechamente que el /
operador. Para seleccionar el primer nodo seleccionado por la expresión A//B/*
, escriba (A//B/*)[1]
. Tenga en cuenta también que los valores de índice en los predicados XPath (técnicamente, 'posiciones de proximidad' de los conjuntos de nodos XPath) comienzan desde 1, no 0 como es común en lenguajes como C y Java.
En la sintaxis completa, sin abreviar, los dos ejemplos anteriores se escribirían
/child::A/child::B/child::C
child::A/descendant-or-self::node()/child::B/child::node()[position()=1]
Aquí, en cada paso del XPath, se especifica explícitamente el eje (por ejemplo child
, o descendant-or-self
), seguido de ::
y luego la prueba del nodo , como A
o node()
en los ejemplos anteriores.
Aquí lo mismo, pero más corto:A//B/*[position()=1]
Los especificadores de eje indican la dirección de navegación dentro de la representación en árbol del documento XML. Los ejes disponibles son: [b]
Como ejemplo de uso del atributo axis en sintaxis abreviada, //a/@href
selecciona el atributo llamado href
en a
elementos en cualquier parte del árbol del documento. La expresión . (abreviatura de self::node() ) se utiliza con mayor frecuencia dentro de un predicado para hacer referencia al nodo seleccionado actualmente. Por ejemplo, h3[.='See also']
selecciona un elemento llamado h3
en el contexto actual, cuyo contenido de texto es See also
.
Las pruebas de nodos pueden consistir en nombres de nodos específicos o expresiones más generales. En el caso de un documento XML en el que gs
se ha definido el prefijo de espacio de nombres, //gs:enquiry
encontrará todos los enquiry
elementos en ese espacio de nombres y //gs:*
todos los elementos, independientemente del nombre local, en ese espacio de nombres.
Otros formatos de prueba de nodos son:
<!-- Comment -->
hello
in<k>hello<m> world</m></k>
<?php echo $a; ?>
processing-instruction('php')
Los predicados, escritos como expresiones entre corchetes, se pueden utilizar para filtrar un conjunto de nodos según alguna condición. Por ejemplo, a
devuelve un conjunto de nodos (todos los a
elementos que son hijos del nodo de contexto) y conserva solo aquellos elementos que tienen un atributo con el valor .a[@href='help.php']
href
help.php
No existe límite para la cantidad de predicados en un paso y no es necesario que se limiten al último paso de una XPath. También se pueden anidar a cualquier profundidad. Las rutas especificadas en los predicados comienzan en el contexto del paso actual (es decir, el de la prueba de nodo inmediatamente anterior) y no alteran ese contexto. Se deben satisfacer todos los predicados para que se produzca una coincidencia.
Cuando el valor del predicado es numérico, es una sintaxis sencilla para comparar con la posición del nodo en el conjunto de nodos (tal como lo indica la función position()
). Por lo tanto, p[1]
es una abreviatura de y selecciona el primer elemento secundario, mientras que es una abreviatura de y selecciona el último elemento secundario del nodo de contexto.p[position()=1]
p
p[last()]
p[position()=last()]
p
En otros casos, el valor del predicado se convierte automáticamente en un valor booleano. Cuando el predicado se evalúa como un conjunto de nodos, el resultado es verdadero cuando el conjunto de nodos no está vacío [ aclarar ] . Por lo tanto, p[@x]
se seleccionan aquellos p
elementos que tienen un atributo denominado x
.
Un ejemplo más complejo: la expresión selecciona el valor del atributo del primer elemento entre los elementos secundarios del nodo de contexto que tiene su atributo establecido en , siempre que el elemento de nivel superior del documento también tenga un atributo establecido en . La referencia a un atributo del elemento de nivel superior en el primer predicado no afecta ni al contexto de otros predicados ni al del paso de ubicación en sí.a[/html/@lang='en'][@href='help.php'][1]/@target
target
a
href
help.php
html
lang
en
El orden de los predicados es importante si los predicados prueban la posición de un nodo. Cada predicado toma un conjunto de nodos y devuelve un conjunto de nodos (potencialmente) más pequeño. Por lo tanto, encontrará una coincidencia solo si el primer hijo del nodo de contexto satisface la condición , mientras que encontrará el primer hijo que satisface esta condición.a[1][@href='help.php']
a
@href='help.php'
a[@href='help.php'][1]
a
XPath 1.0 define cuatro tipos de datos: conjuntos de nodos (conjuntos de nodos sin orden intrínseco), cadenas, números y valores booleanos.
Los operadores disponibles son:
/
, //
y [...]
, utilizados en expresiones de ruta, como se describió anteriormente.|
, que forma la unión de dos conjuntos de nodos.and
y or
, y una funciónnot()
+
, -
, *
, div
(dividir), ymod
=
, !=
, <
, >
, <=
,>=
La biblioteca de funciones incluye:
A continuación se detallan algunas de las funciones más útiles. [c]
true
si s1
comienza cons2
true
si s1
contienes2
substring("ABCDEF",2,3)
devuelve BCD
.substring-before("1999/04/01","/")
devuelve1999
substring-after("1999/04/01","/")
devuelve04/01
Se pueden crear expresiones dentro de predicados utilizando los operadores: =, !=, <=, <, >=
y >
. Las expresiones booleanas se pueden combinar con corchetes ()
y los operadores booleanos and
y , or
así como con la not()
función descrita anteriormente. Los cálculos numéricos pueden utilizar *, +, -, div
y mod
. Las cadenas pueden constar de cualquier carácter Unicode .
//item[@price > 2*@discount]
selecciona artículos cuyo atributo de precio es mayor que el doble del valor numérico de su atributo de descuento.
Se pueden combinar conjuntos de nodos completos ( 'unirse' ) utilizando el carácter de barra vertical |. Se pueden encontrar conjuntos de nodos que cumplen una o más de varias condiciones combinando las condiciones dentro de un predicado con ' or
'.
v[x or y] | w[z]
devolverá un único conjunto de nodos que consta de todos los v
elementos que tienen elementos x
secundarios y
, así como todos los w
elementos que tienen z
elementos secundarios, que se encontraron en el contexto actual.
Dado un documento XML de muestra
<?xml version="1.0" encoding="utf-8"?> <Wikimedia> <projects> <project name= "Wikipedia" launch= "2001-01-05" > <editions> < edition language= "Inglés" > en.wikipedia.org </edition> < edition language = "Alemán" > de.wikipedia.org </edition> <edition language= "Francés" > fr.wikipedia.org </edition> <edition language= "Polaco" > pl.wikipedia.org </edition> <edition language= "Español" > es.wikipedia.org </edition> </editions> </project> <project name= "Wikcionario" launch= "2002-12-12" > <editions> < edition language= "Inglés" > en.wiktionary.org </edition> <edition language= "Francés" > fr.wiktionary.org </edition> <edition language= "vietnamita" > vi.wiktionary.org </edition> <edition language= "turco" > tr.wiktionary.org </edition> <edition language= "español" > es.wiktionary.org </edition> </editions> </project> </projects> </Wikimedia>
La expresión XPath
/Wikimedia/proyectos/proyecto/@nombre
selecciona atributos de nombre para todos los proyectos y
/Wikimedia//ediciones
selecciona todas las ediciones de todos los proyectos, y
/Wikimedia/projects/project/editions/edition[@language='English']/text()
Selecciona las direcciones de todos los proyectos Wikimedia en inglés (texto de todos edition
los elementos donde language
el atributo es igual a English ). Y lo siguiente
/Wikimedia/projects/project[@name='Wikipedia']/editions/edition/text()
selecciona direcciones de todas las Wikipedias (texto de todos edition
los elementos que existen bajo project
el elemento con un atributo de nombre de Wikipedia ).
El
paquete Javajavax.xml.xpath
ha sido parte de la edición estándar de Java desde Java 5 [8] a través de la API de Java para procesamiento XML . Técnicamente, se trata de una API XPath en lugar de una implementación XPath, y permite al programador seleccionar una implementación específica que se ajuste a la interfaz.
XPath se utiliza cada vez más para expresar restricciones en lenguajes de esquema para XML.
Desde: 1.5
Los selectores son patrones que podemos usar para encontrar uno o más elementos en una página para que luego podamos trabajar con los datos dentro del elemento. Scrapy admite selectores CSS o selectores XPath.
{{cite web}}
: CS1 maint: unfit URL (link)