stringtranslate.com

texto electrónico

e-text (de " texto electrónico "; a veces escrito como etext ) es un término general para cualquier documento que se lee en formato digital , y especialmente un documento que es principalmente texto. Por ejemplo, un libro de arte escrito por computadora con un texto mínimo, o un conjunto de fotografías o escaneos de páginas , normalmente no se denominaría "texto electrónico". Un texto electrónico puede ser un archivo binario o de texto plano , visualizado con cualquier software de código abierto o propietario . Un texto electrónico puede tener marcas u otra información de formato , o no. Un texto electrónico puede ser una edición electrónica de una obra originalmente compuesta o publicada en otros medios, o puede haber sido creado originalmente en formato electrónico. El término suele ser sinónimo de libro electrónico .

Orígenes del texto electrónico

Los textos electrónicos, o documentos electrónicos , existen desde mucho antes que Internet, la Web y el hardware especializado de lectura de libros electrónicos. Roberto Busa comenzó a desarrollar una edición electrónica de Tomás de Aquino en la década de 1940, mientras que en la década de 1960 aparecieron plataformas de edición de texto electrónico a gran escala, hipertexto y lectura en línea como Augment y FRESS . Estos primeros sistemas hacían un uso extensivo de formato, marcado , tablas de contenido automáticas, hipervínculos y otra información en sus textos, y en algunos casos (como FRESS) admitían no solo texto sino también gráficos. [1]

"Solo texto sin formato"

En algunas comunidades, "e-text" se utiliza de manera mucho más estricta, para referirse a documentos electrónicos que son, por así decirlo, "simple ASCII " . Con esto no sólo se entiende que el documento es un archivo de texto plano , sino que no tiene información más allá del "texto en sí": no hay representación de negrita o cursiva, límites de párrafo, página, capítulo o nota al pie, etc. Michael S. Hart, [2] por ejemplo, argumentó que este "es el único modo de texto que es agradable tanto para la vista como para la computadora". Hart hizo lo correcto [ ¿ según quién? ] señalan que los formatos propietarios de los procesadores de texto hacían que los textos fueran tremendamente inaccesibles; pero eso es irrelevante para los formatos de datos abiertos estándar. El sentido estricto de "texto electrónico" ahora es poco común, porque la noción de "simplemente ASCII básico" (atractiva a primera vista), ha resultado tener serias dificultades:

En primer lugar, este tipo restringido de "texto electrónico" se limita a las letras inglesas. Ni siquiera la ñ española o las vocales acentuadas utilizadas en muchos idiomas europeos no pueden representarse (a menos que de manera incómoda y ambigua como "~n" "a'"). Los sistemas de escritura asiáticos, eslavos, griegos y otros son imposibles.

En segundo lugar, no se pueden acomodar diagramas e imágenes, y muchos libros contienen al menos parte de ese material; A menudo es esencial para el libro.

En tercer lugar, los "textos electrónicos" en este sentido estricto no tienen una forma confiable de distinguir "el texto" de otras cosas que ocurren en una obra. Por ejemplo, los números de página, los encabezados de página y las notas a pie de página pueden omitirse o simplemente aparecer como líneas de texto adicionales, tal vez con líneas en blanco antes y después (o no). Una línea separadora ornamentada podría estar representada por una línea de asteriscos (o no). Los títulos de capítulos y secciones, de la misma manera, son solo líneas adicionales de texto: podrían ser detectables por el uso de mayúsculas si estuvieran todos en mayúsculas en el original (o no). Incluso descubrir qué convenciones (si las hubo) se utilizaron hace que cada libro sea un nuevo proyecto de investigación o ingeniería inversa.

Como consecuencia de esto, dichos textos no se pueden reformatear de forma fiable. Un programa no puede saber de manera confiable dónde están las notas al pie, los encabezados o los pies de página, o tal vez incluso los párrafos, por lo que no puede reorganizar el texto, por ejemplo para que quepa en una pantalla más estrecha, o leerlo en voz alta para personas con discapacidad visual. Los programas pueden aplicar heurísticas para adivinar la estructura, pero esto puede fallar fácilmente.

Cuarto, y quizás sorprendentemente ¿ según quién? ] cuestión importante, un texto electrónico "texto plano" no ofrece ninguna manera de representar información sobre el trabajo. Por ejemplo, ¿es la primera o la décima edición? ¿Quién lo preparó y qué derechos se reservan o conceden a otros? ¿Es esta la versión sin formato sacada directamente de un escáner o ha sido revisada y corregida? Los metadatos relacionados con el texto a veces se incluyen con un texto electrónico, pero según esta definición no hay forma de decir si están preestablecidos o dónde. En el mejor de los casos, el texto de la portada podría incluirse (o no), tal vez imitando el centrado mediante sangría.

En quinto lugar, los textos con información más complicada realmente no pueden manejarse en absoluto. Una edición bilingüe, o una edición crítica con notas a pie de página, comentarios, aparatos críticos, referencias cruzadas o incluso las tablas más simples. Esto conduce a un sinfín de problemas prácticos: por ejemplo, si la computadora no puede distinguir de manera confiable las notas al pie, no puede encontrar una frase que una nota al pie interrumpa.

Incluso la salida OCR del escáner sin formato suele producir más información que esta, como el uso de negrita y cursiva. Si esta información no se conserva, su reconstrucción resulta costosa y lleva mucho tiempo; Es posible que la información más sofisticada, como la edición que tiene, no se pueda recuperar en absoluto.

En realidad, incluso el "texto sin formato" utiliza algún tipo de "marcado", generalmente caracteres de control , espacios, tabulaciones y similares: espacios entre palabras; dos retornos y 5 espacios para párrafo. La principal diferencia con el marcado más formal es que los "textos sin formato" utilizan convenciones implícitas, generalmente no documentadas, que por lo tanto son inconsistentes y difíciles de reconocer. [3]

El sentido estricto de texto electrónico como "ASCII simple" ha caído en desgracia. [¿ según quién? ] Sin embargo, muchos de estos textos están disponibles gratuitamente en la Web, quizás tanto porque se producen fácilmente como por alguna supuesta ventaja de portabilidad. Durante muchos años, el Proyecto Gutenberg favoreció fuertemente este modelo de texto, pero con el tiempo, comenzó a desarrollar y distribuir formas más capaces, como HTML .

Ver también

Referencias

  1. ^ Lectura y escritura del libro electrónico. Nicole Yankelovich, Norman Meyrowitz y Andries van Dam. IEEE Computer 18(10), octubre de 1985. http://dl.acm.org/citation.cfm?id=4407
  2. ^ Michael S. Hart
  3. ^ Coombs, James H.; Renear, Allen H.; DeRose, Steven J. (noviembre de 1987). "Los sistemas de marcado y el futuro del procesamiento de textos académicos". Comunicaciones de la ACM . ACM . 30 (11): 933–947. doi : 10.1145/32206.32209 . S2CID  59941802.

enlaces externos