Afilado (sintaxis)

En el diseño de lenguajes informáticos , el stropping es un método para marcar explícitamente secuencias de letras como si tuvieran una propiedad especial, como ser una palabra clave , o un cierto tipo de variable o ubicación de almacenamiento, y por lo tanto ocupar un espacio de nombres diferente al de los nombres ordinarios ("identificadores"), para evitar conflictos. El stropping no se utiliza en la mayoría de los lenguajes modernos; en cambio, las palabras clave son palabras reservadas y no se pueden usar como identificadores. El stropping permite que la misma secuencia de letras se use como palabra clave y como identificador , y simplifica el análisis en ese caso; por ejemplo, permite que una variable nombrada ifno entre en conflicto con la palabra clave if .

El stropping se asoció principalmente con ALGOL y lenguajes relacionados en la década de 1960. Aunque tiene algún uso moderno, se confunde fácilmente con otras técnicas similares que son superficialmente similares.

Historia

El método de stropping y el término "stropping" surgieron en el desarrollo de ALGOL en la década de 1960, donde se usaba para representar distinciones tipográficas (negrita y subrayado) encontradas en el lenguaje de publicación que no se podían representar directamente en el lenguaje de hardware: una máquina de escribir podía tener caracteres en negrita, pero en la codificación en tarjetas perforadas, no había caracteres en negrita. El término "stropping" surgió en ALGOL 60 , de " apóstrofo ", ya que algunas implementaciones de ALGOL 60 usaban apóstrofos alrededor del texto para indicar negrita, ^[1] como 'if'para representar la palabra clave if . El stropping también es importante en ALGOL 68 , donde se usan múltiples métodos de stropping, conocidos como "regímenes de stropping"; los apóstrofos coincidentes originales de ALGOL 60 no se usaban ampliamente, siendo más común un punto inicial o mayúsculas, ^[2] como en .IFor IFy el término "stropping" se aplicó a todos estos.

Sintaxis

Se han utilizado distintas sintaxis para el stropping:

ALGOL 60 comúnmente utilizaba solo la convención de comillas simples alrededor de la palabra, generalmente como apóstrofes, de ahí el nombre "stropping" (por ejemplo, 'BEGIN').
ALGOL 68 ^[3]^[2] en algunas implementaciones trata las secuencias de letras prefijadas por una comilla simple, ', como si fueran palabras clave (por ejemplo, 'BEGIN) ^[4]

De hecho, a menudo se daba el caso de que se utilizasen varias convenciones de stropping en un mismo lenguaje. Por ejemplo, en ALGOL 68 , la elección de la convención de stropping se puede especificar mediante una directiva del compilador (en la terminología de ALGOL, un " pragmat "), a saber, POINT, UPPER, QUOTE o RES:

PUNTO para 6 bits (no hay suficientes caracteres para minúsculas), como en .FOR: se utiliza una convención similar en FORTRAN 77, donde las palabras clave LÓGICAS se eliminan como .EQ.etc. (ver a continuación)
MAYÚSCULAS para 7 bits, como en FOR– con minúsculas utilizadas para identificadores ordinarios
CITA como en ALGOL 60, como en'for'
Las palabras reservadas RES, tal como se usan en los idiomas modernos, forestán reservadas y no están disponibles para los identificadores ordinarios.

Los diversos regímenes de reglas son una especificación léxica para caracteres con apóstrofo, aunque en algunos casos tienen interpretaciones simples: en los regímenes de apóstrofo simple y punto, el primer carácter funciona como un carácter de escape , mientras que en el régimen de apóstrofos coincidentes los apóstrofos funcionan como delimitadores , como en los literales de cadena .

Otros ejemplos:

Atlas Autocode tenía tres opciones: las palabras clave podían underlinedusarse con la tecla de retroceso y la tecla de tachado en un teclado Flexowriter , podían introducirse con un %percent %symbol, o podían escribirse UPPER CASEsin ningún carácter delimitador (modo "uppercasedelimiters", en cuyo caso todas las variables debían estar en minúsculas).
ALGOL 60 en las computadoras Elliott 803 y Elliott 503 usaba subrayado. Las Flexowriters (que producían cinta de papel perforada) tenían una tecla sin movimiento (subrayado _) de modo que al escribir _b_e_g_i_n se producía begin , que era muy legible. La barra vertical | también era una tecla sin movimiento de modo que al escribir |= se producía una buena aproximación a ≠.
El compilador Kidsgrove para ALGOL 60 en el English Electric KDF9 parece haber utilizado al menos otras dos convenciones de alineación además de las comillas: signos de exclamación y caracteres de porcentaje.
A los programas ALGOL 68RS se les permite el uso de varias variantes de stropping, incluso dentro de un procesador de lenguaje.
El IMP de Edimburgo heredó la %percent %symbolconvención de prefijo Atlas Autocode, pero no sus otras opciones de afilado.

Ejemplos de diferentes estilos de ALGOL 68

Tenga en cuenta la directiva pr inicial (abreviatura de pragmat ) , que está en estilo POINT o comillas, y el comentario for (de " ") – consulte ALGOL 68: pr & co: Pragmats and Comments para obtener más detalles.¢2¢

Otros idiomas

Por diversas razones, Fortran 77 tiene estos valores y operadores "lógicos": .TRUE., .FALSE., .EQ., .NE., .LT., .LE., .GT., .GE., .EQV., .NEQV., .OR., .AND., .NOT.^[5]

.AND., .OR.y .XOR.también se utilizan en pruebas combinadas en declaraciones IFy en archivos por lotes que se ejecutan bajo los procesadores de línea de comandos de JP Software como 4DOS , ^[6]4OS2 y 4NT / Take Command .IFF

Uso moderno

Para indicar identificadores

La mayoría de los lenguajes informáticos modernos no utilizan el stropping. Sin embargo, algunos lenguajes admiten el stropping opcional para especificar identificadores que, de lo contrario, entrarían en conflicto con palabras reservadas o que contienen caracteres no alfanuméricos.

Por ejemplo, el uso de muchos lenguajes en la infraestructura de lenguaje común (CLI) .NET de Microsoft requiere una forma de usar variables en un lenguaje diferente que pueden ser palabras clave en un lenguaje de llamada. Esto a veces se hace mediante prefijos, como en C#, o encerrando el identificador entre corchetes, en Visual Basic.NET .@

Un segundo ejemplo importante se encuentra en muchas implementaciones de Structured Query Language . En esos lenguajes, las palabras reservadas se pueden usar como nombres de columnas, tablas o variables delimitándolas léxicamente. El estándar especifica que las palabras reservadas se deben encerrar entre comillas dobles, pero en la práctica el mecanismo exacto varía según la implementación; MySQL , por ejemplo, permite que las palabras reservadas se usen en otros contextos encerrándolas entre comillas simples, y Microsoft SQL Server usa corchetes.

En varios idiomas, incluidos Nim , R , ^[7] y Scala , ^[8] una palabra reservada o un nombre no alfanumérico se puede usar como identificador encerrándolo entre comillas simples invertidas .

Existen otros ejemplos más menores. Por ejemplo, Web IDL utiliza un guión bajo inicial _para anular identificadores que de otro modo colisionarían con palabras reservadas: el valor del identificador elimina este guión bajo inicial, lo que hace que se trate de un anular, en lugar de una convención de nombres. ^[9]

Otros fines

En Haskell , rodear el nombre de una función entre comillas invertidas hace que se analice como un operador infijo .

Deshacer el stropping por el compilador

En el frontend de un compilador , el desajuste se produjo originalmente durante una fase de reconstrucción de línea inicial , que también eliminó los espacios en blanco. A esto le siguió el análisis sin escáner (sin tokenización); esto era estándar en la década de 1960, en particular para ALGOL. En el uso moderno, el desajuste se realiza generalmente como parte del análisis léxico . Esto es claro si uno distingue el analizador léxico en dos fases de escáner y evaluador: el escáner clasifica la secuencia desajuste en la categoría correcta y luego el evaluador desajuste al calcular el valor. Por ejemplo, en un lenguaje donde se utiliza un guión bajo inicial para desajuste de identificadores para evitar colisiones con palabras reservadas, el escáner _ifcategorizaría la secuencia como un identificador (no como la palabra reservada if) y luego el evaluador le daría el valor if, dando (Identifier, if)como resultado el tipo y valor de token.

Técnicas similares

Existen varias técnicas similares, que generalmente anteponen o sufijan un identificador para indicar un tratamiento diferente, pero la semántica varía. Estrictamente hablando, el stropping consiste en diferentes representaciones del mismo nombre (valor) en diferentes espacios de nombres y ocurre en la etapa de tokenización. Por ejemplo, en ALGOL 60 con stropping de apóstrofo coincidente, 'if'se tokeniza como (Palabra clave, si), mientras que ifse tokeniza como (Identificador, si) – mismo valor en diferentes clases de token.

El uso de mayúsculas para palabras clave sigue utilizándose como convención para escribir gramáticas para análisis léxico y sintáctico: tokenizar la palabra reservada ifcomo la clase de token IF y luego representar una cláusula if-then-else mediante la frase IF Expression THEN Statement ELSE Statementdonde los términos en mayúscula son palabras clave y los términos en mayúscula son símbolos no terminales en una regla de producción ( los símbolos terminales se denotan mediante términos en minúscula, como identifiero integer, para un literal entero ).

Convenciones de nombres

En términos más generales, se pueden utilizar convenciones de nombres para evitar conflictos, generalmente anteponiendo o sufijando un guión bajo, como en if_o _then. En la programación orientada a objetos, se suele utilizar un guión bajo inicial para indicar miembros privados.

El compilador puede interpretar estos nombres y tener algún efecto, aunque esto generalmente se hace en la fase de análisis semántico, no en la fase de tokenización. Por ejemplo, en Python, un solo guión bajo inicial es un indicador privado débil y afecta qué identificadores se importan en la importación del módulo, mientras que un guión bajo inicial doble (y no más de un guión bajo final) en un atributo de clase invoca la alteración de nombres . ^[10]

Palabras reservadas

Si bien los idiomas modernos generalmente utilizan palabras reservadas en lugar de stropping para distinguir palabras clave de identificadores (por ejemplo, haciendo ifreservado), también reservan con frecuencia una clase sintáctica de identificadores como palabras clave, lo que produce representaciones que pueden interpretarse como un régimen de stropping, pero que en cambio tienen la semántica de palabras reservadas.

Esto es más notable en C, donde los identificadores que comienzan con un guión bajo están reservados, aunque los detalles precisos de qué identificadores están reservados en qué ámbito están involucrados, y los guiones bajos dobles iniciales están reservados para cualquier uso; ^[11] de manera similar en C++ cualquier identificador que contenga un guión bajo doble está reservado para cualquier uso, mientras que un identificador que comienza con un guión bajo está reservado en el espacio global. ^{[nb 1]} Por lo tanto, uno puede agregar una nueva palabra clave foousando la palabra reservada __foo. Si bien esto es superficialmente similar al stropping, la semántica es diferente. Como palabra reservada, la cadena __foorepresenta el identificador __fooen el espacio de nombres de identificador común. En el stropping (al anteponer palabras clave con __), la cadena __foorepresenta la palabra clave fooen un espacio de nombres de palabras clave separado. Por lo tanto, al usar palabras reservadas, los tokens para __fooy fooson (identificador, __foo) y (identificador, foo) – diferentes valores en la misma categoría – mientras que en el stropping los tokens para __fooy fooson (palabra clave, foo) y (identificador, foo) – mismos valores en diferentes categorías. Estos resuelven el mismo problema de conflictos de espacios de nombres de una manera que es la misma para un programador, pero que difiere en términos de gramática formal e implementación.

Mutilación de nombres

La mutilación de nombres también soluciona los conflictos de nombres al cambiar el nombre de los identificadores, pero esto se hace mucho más tarde en la compilación, durante el análisis semántico, no durante la tokenización. Esto consiste en crear nombres que incluyan información de tipo y alcance, principalmente para que los utilicen los enlazadores, tanto para evitar conflictos como para incluir la información semántica necesaria en el nombre mismo. En estos casos, los identificadores originales pueden ser idénticos, pero el contexto es diferente, como en las funciones foo(int x)versus foo(char x), en ambos casos con el mismo identificador foo, pero con una firma diferente. Estos nombres se pueden mutilar a foo_iy foo_c, por ejemplo, para incluir la información de tipo.

Sigilos

Un fenómeno sintácticamente similar pero semánticamente diferente son los sigilos , que en cambio indican propiedades de las variables. Estos son comunes en BASIC , Perl , Ruby y varios otros lenguajes para identificar características de variables/constantes: BASIC y Perl para designar el tipo de variable, Ruby tanto para distinguir variables de constantes como para indicar el alcance. Tenga en cuenta que esto afecta a la semántica de la variable, no a la sintaxis de si es un identificador o una palabra clave.

Paralelismos en el lenguaje humano

El stropping se utiliza en los lenguajes de programación informática para facilitar el trabajo del compilador (o, más estrictamente, del analizador ), es decir, dentro de las posibilidades de las computadoras relativamente pequeñas y lentas disponibles en los primeros días de la informática en el siglo XX. Sin embargo, también se han utilizado técnicas similares para facilitar la comprensión lectora de las personas. Algunos ejemplos son:

Colocar palabras importantes en negrita , ^[12] como la primera mención del afilado en el encabezado de esta página, porque definir el afilado es el propósito mismo de la página.
Dar formato a las palabras nuevas en cursiva^[13] cuando se introducen por primera vez en el texto. Esto se utiliza habitualmente en ciencia ficción y fantasía cuando se presentan plantas, alimentos y criaturas inventadas; en relatos de viajes y escritos históricos cuando se describen palabras extranjeras desconocidas; etc. También se utiliza una fuente especial, posiblemente asociada con el idioma en cuestión, por ejemplo, utilizando una fuente gótica ^[14] para palabras alemanas .
Utilizar un idioma diferente, normalmente latín o griego, para indicar términos técnicos. Es similar al uso de palabras reservadas, pero normalmente se combina con texto en cursiva para facilitar la lectura. Por ejemplo:
- La nomenclatura binomial típica ^[15] o "nombres latinos" de plantas y animales ayuda al lector a ver que " Erithacus rubecula " es el nombre técnico especial del Erithacus rubecula , de una manera que "Zorzal europeo pechirrojo" no lo hace.
- muchos términos legales donde una frase corta en latín se refiere a un gran cuerpo de leyes y precedentes, como habeas corpus , sub judice , in loco parentis . ^[16]
- lógica y términos matemáticos como QED , a priori , viceversa ...
En el japonés escrito , además de los caracteres kanji , se utilizan dos alfabetos distintos (más estrictamente, silabarios ) Hiragana ^[17]^[18] y Katakana ^[19], ambos representando el mismo conjunto de sonidos, para distinguir las palabras japonesas escritas fonéticamente de las palabras extranjeras importadas, respectivamente; Katakana también se utiliza para enfatizar, de forma muy similar a la cursiva en inglés.

Véase también

Notas

^ Existen otras restricciones, como un identificador que comience con un guión bajo, seguido de una letra mayúscula.

Referencias

^ King, Peter R., ed. (18 de junio de 1974). "(desconocido)". Actas de una conferencia internacional sobre la implementación de ALGOL 68. Departamento de Ciencias de la Computación, Universidad de Manitoba, Winnipeg: Universidad de Manitoba, Departamento de Ciencias de la Computación: 148. ISBN 9780919628113. El "apuntado", la técnica que se utiliza para distinguir el texto en negrita del texto en letra latina, plantea problemas más graves. Algunas implementaciones exigen apóstrofos alrededor de la negrita (de ahí el nombre de "apuntado"), otras requieren retroceso y subrayado; [...] {{cite journal}}: La cita utiliza un título genérico ( ayuda )
^ ab van Wijngaarden, Adriaan ; Mailloux, Barry James ; Peck, John Edward Lancelot ; Koster, Cornelis Hermanus Antonius ; Sintzoff, Michel [en francés] ; Lindsey, Charles Hodgson ; Meertens, Lambert Guillaume Louis Théodore ; Fisker, Richard G., eds. (1976). "Sección 9.3 Declaraciones" (PDF) . Informe revisado sobre el lenguaje algorítmico ALGOL 68 . Springer-Verlag . págs.94, 123. ISBN 978-0-387-07592-1. OCLC 1991170. Archivado (PDF) desde el original el 19 de abril de 2019. Consultado el 11 de mayo de 2019 .
^ http://www.fh-jena.de/~kleine/history/languages/Algol68-RR-HardwareRepresentation.pdf ^{[ enlace roto ]}
^ Lindsey, Charles Hodgson ; van der Meulen, Sietse G. (1977). Introducción informal a ALGOL 68 . Holanda del Norte. págs. 348–349. ISBN 978-0-7204-0726-6.OCLC 230034877 .
^ "Estructuras lógicas".
^ Hermanos, Hardin; Rawson, Tom ; Conn, Rex C .; Paul, Matthias R.; Dye, Charles E.; Georgiev, Luchezar I. (27 de febrero de 2002). Ayuda en línea de 4DOS 8.00 .
^ Equipo central de R, Citas: Citas, Fundación R para el cálculo estadístico.
^ Odersky, Martin (24 de mayo de 2011), La especificación del lenguaje Scala versión 2.9
^ Web IDL , "3.1. Nombres". [...] Para todas estas construcciones, el identificador es el valor del token de identificador con cualquier carácter inicial (guión bajo) eliminado. [...] Nota [...] Se utiliza un "_" inicial para evitar que un identificador parezca una palabra reservada, de modo que, por ejemplo, se pueda definir una interfaz denominada "interfaz". Se omite el "_" inicial para eliminar el carácter de escape del identificador. [...]
^ PEP 008: Descriptivo: Estilos de nombres
^ Norma C99 , 7.1.3 Identificadores reservados
^ Twyman, Michael. "La idea audaz: el uso de tipos de aspecto audaz en el siglo XIX". Revista de la Sociedad Histórica de la Imprenta . 22 (107–143).
^ Truss, Lynne (2004), Come, dispara y se va: el enfoque de tolerancia cero a la puntuación , Nueva York: Gotham Books, pág. 146, ISBN 978-1-59240-087-4
^ "Estilos de escritura a mano". Rigsarkivet . Archivos Nacionales de Dinamarca . Consultado el 26 de marzo de 2017 .
^ "Cómo escribir los nombres científicos de los organismos" (PDF) , Competition Science Vision , consultado el 20 de junio de 2011 .
^ Selección de máximas jurídicas, clasificadas e ilustradas en Google Books
^ Doble 大辞林
「平」とは平凡な、やさしいという意で、当時普通に使用する文字体系であったこ.とを意味する。漢字は書簡文や重要な文章などを書く場合に用いる公的な文字であるのに対して、平仮名は漢字の知識に乏しい人々などが用いる私的な性格のものであった。
Traducción: 平 [ la parte "hira" de "hiragana"] significa "ordinario" o "simple" ya que en ese momento En la época en que se le dio el nombre, era un sistema de escritura de uso cotidiano. Mientras que el kanji era el sistema oficial utilizado para escribir cartas y textos importantes, el hiragana era para uso personal de personas con un conocimiento limitado de los kanji.
^ "Caligrafía japonesa". Enciclopedia Británica . Consultado el 22 de junio de 2017 .
^ "Hiragana, Katakana y Kanji". Caracteres de palabras japonesas. 2010-09-08 . Consultado el 2011-10-15 .

Lectura adicional

Hansen, WJ; Boom, HJ (1978). "Informe sobre la representación de hardware estándar para ALGOL 68 revisado". Acta Informatica . 9 (2): 105–119. doi :10.1007/BF00289072. S2CID 34231916.
Lindsey, Charles Hodgson (marzo de 1970), "Una representación en código ISO para ALGOL 68", Boletín ALGOL (31), ACM: 37–60, AB31.3.6