stringtranslate.com

Texto electrónico

El término e-texto (de " texto electrónico "; a veces escrito como etext ) es un término general para cualquier documento que se lee en formato digital , y especialmente un documento que es principalmente texto. Por ejemplo, un libro de arte basado en computadora con un texto mínimo, o un conjunto de fotografías o escaneos de páginas , normalmente no se llamaría "e-texto". Un e-texto puede ser un archivo binario o de texto simple , visto con cualquier software de código abierto o propietario . Un e-texto puede tener marcado u otra información de formato , o no. Un e-texto puede ser una edición electrónica de una obra compuesta o publicada originalmente en otros medios, o puede ser creada originalmente en formato electrónico. El término suele ser sinónimo de libro electrónico .

Orígenes del texto electrónico

Los textos electrónicos, o documentos electrónicos , han existido desde mucho antes de que existiera Internet, la Web y el hardware especializado para la lectura de libros electrónicos. Roberto Busa comenzó a desarrollar una edición electrónica de Aquino en la década de 1940, mientras que la edición electrónica de textos a gran escala, el hipertexto y las plataformas de lectura en línea como Augment y FRESS aparecieron en la década de 1960. Estos primeros sistemas hicieron un uso extensivo de formato, marcado , tablas de contenido automáticas, hipervínculos y otra información en sus textos, así como en algunos casos (como FRESS) admitían no solo texto sino también gráficos. [1]

"Sólo texto sin formato"

En algunas comunidades, el término "e-text" se utiliza de forma mucho más restringida, para referirse a documentos electrónicos que son, por así decirlo, " ASCII simple ". Con esto no sólo se quiere decir que el documento es un archivo de texto simple , sino que no tiene información más allá del "texto en sí": no hay representación de negrita o cursiva, límites de párrafos, páginas, capítulos o notas al pie, etc. Michael S. Hart, [2] por ejemplo, sostuvo que este "es el único modo de texto que es agradable tanto para la vista como para la computadora". Hart planteó correctamente [ ¿según quién? ] el argumento de que los formatos de procesadores de texto propietarios hacían que los textos fueran extremadamente inaccesibles; pero eso es irrelevante para los formatos de datos abiertos estándar. El sentido estricto de "e-text" es ahora poco común, porque la noción de "ASCII simple" (atractivo a primera vista), ha resultado tener serias dificultades:

En primer lugar, este tipo estrecho de "texto electrónico" se limita a las letras inglesas. Ni siquiera la ñ española ni las vocales acentuadas que se utilizan en muchos idiomas europeos pueden representarse (a menos que se haga de forma extraña y ambigua como "~n" "a'"). Los sistemas de escritura asiáticos, eslavos, griegos y otros son imposibles.

En segundo lugar, no se pueden incluir diagramas ni imágenes, y muchos libros tienen al menos algo de ese material; a menudo, es esencial para el libro.

En tercer lugar, los "textos electrónicos" en este sentido estricto no tienen una manera fiable de distinguir "el texto" de otras cosas que aparecen en una obra. Por ejemplo, los números de página, los encabezados de página y las notas a pie de página pueden omitirse, o pueden aparecer simplemente como líneas de texto adicionales, tal vez con líneas en blanco antes y después (o no). Una línea de separación ornamentada puede estar representada en su lugar por una línea de asteriscos (o no). Los títulos de capítulos y secciones, de la misma manera, son simplemente líneas de texto adicionales: podrían detectarse por la capitalización si estuvieran todos en mayúsculas en el original (o no). Incluso descubrir qué convenciones se utilizaron (si se utilizaron algunas), hace que cada libro sea un nuevo proyecto de investigación o ingeniería inversa.

Como consecuencia de ello, no es posible reformatear dichos textos de forma fiable. Un programa no puede determinar con precisión dónde se encuentran las notas a pie de página, los encabezados o los pies de página, o incluso los párrafos, por lo que no puede reorganizar el texto, por ejemplo, para que se ajuste a una pantalla más estrecha, o leerlo en voz alta para personas con discapacidad visual. Los programas pueden aplicar heurísticas para adivinar la estructura, pero esto puede fallar fácilmente.

En cuarto lugar, y tal vez sea una cuestión sorprendentemente importante (¿ según quién? ) , un texto electrónico "en formato de texto simple" no ofrece ninguna forma de representar información sobre la obra. Por ejemplo, ¿es la primera o la décima edición? ¿Quién lo preparó y qué derechos se reserva o concede a otros? ¿Es la versión en bruto recién sacada del escáner o ha sido revisada y corregida? A veces, en un texto electrónico se incluyen metadatos relacionados con el texto, pero según esta definición no hay forma de decir si están preestablecidos o dónde. En el mejor de los casos, se puede incluir el texto de la página del título (o no), tal vez con un centrado imitado por una sangría.

En quinto lugar, los textos con información más compleja no se pueden manejar en absoluto. Una edición bilingüe o una edición crítica con notas a pie de página, comentarios, aparatos críticos, referencias cruzadas o incluso las tablas más simples. Esto conduce a un sinfín de problemas prácticos: por ejemplo, si el ordenador no puede distinguir con fiabilidad las notas a pie de página, no puede encontrar una frase que una nota a pie de página interrumpa.

Incluso el resultado del escáner OCR sin procesar suele generar más información que esta, como el uso de negrita y cursiva. Si no se conserva esta información, es costoso y lleva mucho tiempo reconstruirla; es posible que no se pueda recuperar información más sofisticada, como la edición que tiene.

En realidad, incluso el "texto simple" utiliza algún tipo de "marcado", generalmente caracteres de control , espacios, tabulaciones y similares: espacios entre palabras, dos retornos y cinco espacios para párrafos. La principal diferencia con el marcado más formal es que los "textos simples" utilizan convenciones implícitas, generalmente no documentadas, que por lo tanto son inconsistentes y difíciles de reconocer. [3]

El sentido estricto del texto electrónico como "ASCII simple" ha caído en desuso. [ ¿Según quién? ] Sin embargo, muchos de estos textos están disponibles gratuitamente en la Web, quizás tanto porque se producen fácilmente como por alguna supuesta ventaja de portabilidad. Durante muchos años, el Proyecto Gutenberg favoreció firmemente este modelo de texto, pero con el tiempo ha comenzado a desarrollar y distribuir formatos más capaces, como HTML .

Véase también

Referencias

  1. ^ Lectura y escritura del libro electrónico. Nicole Yankelovich, Norman Meyrowitz y Andries van Dam. IEEE Computer 18(10), octubre de 1985. http://dl.acm.org/citation.cfm?id=4407
  2. ^ Michael S. Hart
  3. ^ Coombs, James H.; Renear, Allen H.; DeRose, Steven J. (noviembre de 1987). "Sistemas de marcado y el futuro del procesamiento de textos académicos". Comunicaciones de la ACM . 30 (11). ACM : 933–947. doi : 10.1145/32206.32209 . S2CID  59941802.

Enlaces externos