Masticar al máximo

En programación informática y ciencias de la computación , el principio de " maximal munch " o " longest match " es que cuando se crea una construcción se debe consumir la mayor cantidad posible de la entrada disponible.

El primer uso conocido de este término lo realizó RGG Cattell en su tesis doctoral ^[1] sobre la derivación automática de generadores de código para compiladores .

Solicitud

Por ejemplo, la sintaxis léxica de muchos lenguajes de programación requiere que los tokens se construyan a partir del máximo número posible de caracteres del flujo de entrada. Esto se hace para resolver el problema de la ambigüedad inherente en expresiones regulares de uso común, como [a-z]+(una o más letras minúsculas). ^[2]

El término también se utiliza en los compiladores en la etapa de selección de instrucciones para describir un método de "mosaico" (determinar cómo un árbol estructurado que representa un programa en un lenguaje intermedio debe convertirse en código de máquina lineal ). Un subárbol entero puede convertirse en una sola instrucción de máquina, y el problema es cómo dividir el árbol en "mosaicos" que no se superpongan, cada uno de los cuales representa una instrucción de máquina. Una estrategia eficaz es simplemente hacer un mosaico del subárbol más grande posible en cualquier punto dado, lo que se llama "combinación máxima". ^[3]

Desventajas

En algunas situaciones, la "compresión máxima" conduce a resultados indeseables o poco intuitivos. Por ejemplo, en el lenguaje de programación Cx=y/*z; , la declaración (sin ningún espacio en blanco) probablemente conducirá a un error de sintaxis ya que la /*secuencia de caracteres (sin intención) inicia un comentario que no está terminado o que termina con el token final */de algún comentario real posterior no relacionado (los comentarios en C no se anidan). Lo que realmente se quería decir con la declaración era asignar a la variable xel resultado de dividir el valor en ypor el valor obtenido al desreferenciar el puntero z ; esto sería un código válido. Se puede indicar haciendo uso de espacios en blanco o usando x=y/(*z);.

Otro ejemplo, en C++ , utiliza los caracteres de "corchete angular" <y >en la sintaxis para la especialización de plantillas , pero dos >caracteres consecutivos se interpretan como el operador de desplazamiento a la derecha>> . ^[4] Antes de C++11, el siguiente código produciría un error de análisis, porque se encuentra el token del operador de desplazamiento a la derecha en lugar de dos tokens de corchete angular recto:

 std :: vector < std :: vector < int >> my_mat_11 ; //Incorrecto en C++03, correcto en C++11. std :: vector < std :: vector < int > > my_mat_03 ; //Correcto en C++03 o C++11.

El estándar C++11 adoptado en agosto de 2011 modificó la gramática de modo que un token de desplazamiento a la derecha se acepta como sinónimo de un par de corchetes angulares rectos (como en Java ), lo que complica la gramática pero permite el uso continuo del principio de munch máximo. De todos modos, se tuvo que agregar una excepción a la regla de munch máximo para tratar la secuencia <::que puede aparecer en las plantillas. En ese caso, a menos que la secuencia sea seguida por :o >el carácter <se interprete como su propio token en lugar de parte del token <:.

Alternativas

Los investigadores de lenguajes de programación también han respondido reemplazando o complementando el principio de munch máximo con otras tácticas de desambiguación léxica. Un enfoque es utilizar "restricciones de seguimiento", que en lugar de tomar directamente la coincidencia más larga pondrá algunas restricciones sobre qué caracteres pueden seguir a una coincidencia válida. Por ejemplo, estipular que las cadenas que coinciden [a-z]+no pueden ser seguidas por un carácter alfabético logra el mismo efecto que el munch máximo con esa expresión regular. ^[5] (En el contexto de expresiones regulares, el principio de munch máximo se conoce como avaricia y se contrasta con pereza ). Otro enfoque es mantener el principio de munch máximo pero hacerlo subordinado a algún otro principio, como el contexto ( por ejemplo , el token de desplazamiento a la derecha en Java no coincidiría en el contexto de una expresión genérica , donde es sintácticamente inválido). ^[6]

Referencias

^ Cattell, RGG “Formalización y derivación automática de generadores de código”. Tesis doctoral, 1978. Carnegie Mellon University, Pittsburgh, Pennsylvania, EE. UU.
^ Aho y otros , 168.
^ Página, 470.
^ Van der Voorde.
^ Van den Brand y col. , 26.
^ Van Wyk y otros , 63.

Bibliografía

Aho, Alfred V.; Lam, Monica S.; Sethi, Ravi; Ullman, Jeffrey D. (2007). Compiladores: principios, técnicas y herramientas (2.ª ed.). Boston: Addison-Wesley. ISBN 978-0-321-48681-3.
Page, Daniel (2009). "Compiladores". Introducción práctica a la arquitectura de computadoras . Textos en ciencias de la computación. Londres: Springer. pp. 451–493. doi :10.1007/978-1-84882-256-6_11. ISBN 978-1-84882-255-9.
Van den Brand, Mark GJ; Scheerder, Jeroen; Vinju, Jürgen J.; Visser, Eelco (2002). "Filtros de desambiguación para analizadores LR generalizados sin escáner". Construcción del compilador . Apuntes de conferencias sobre informática. vol. 2304/2002. Berlín/Heidelberg: Springer. págs. 21–44. doi :10.1007/3-540-45937-5_12. ISBN 978-3-540-43369-9. ISSN 0302-9743.
Vandevoorde, Daveed (14 de enero de 2005). "Soportes en ángulo recto" . Consultado el 31 de marzo de 2010 .
Van Wyk, Eric; Schwerdfeger, August (2007). "Escaneo sensible al contexto para analizar lenguajes extensibles". Actas de la 6.ª conferencia internacional sobre programación generativa e ingeniería de componentes . Nueva York: ACM. págs. 63–72. doi :10.1145/1289971.1289983. ISBN . 9781595938558.S2CID 9145863 .