stringtranslate.com

Asociación para la creación de textos

Text Creation Partnership ( TCP ) es una organización sin fines de lucro con sede en la biblioteca de la Universidad de Michigan desde el año 2000. Su propósito es producir recursos electrónicos de texto completo a gran escala (especialmente en las humanidades) en nombre de las instituciones miembro (en particular, bibliotecas académicas) y de las editoriales académicas, en virtud de un acuerdo calculado para satisfacer las necesidades de ambos y, al hacerlo, demostrar el valor de un modelo de negocios que ve a los proveedores de información corporativos y sin fines de lucro como colaboradores potencialmente amistosos en lugar de vendedores y clientes antagónicos respectivamente. [1]

Proyectos

TCP ha patrocinado cuatro proyectos de creación de textos hasta la fecha. El primero y más grande es "EEBO-TCP (Fase I)" (2001-2009), un esfuerzo para producir transcripciones de texto completo, estructuralmente marcadas, de más de 25.000 de los aproximadamente 125.000 libros que se encuentran en los catálogos de títulos cortos de Pollard y Redgrave y Wing de los primeros libros impresos en inglés, o entre los Thomason Tracts , es decir, de entre casi todos los libros, panfletos y folletos publicados en inglés o en Inglaterra antes de 1700. Los libros fueron seleccionados y transcritos a partir de los escaneos digitales producidos por ProQuest Information and Learning, y distribuidos por ellos como un producto basado en la web bajo el nombre de " Early English Books Online " (EEBO). Los escaneos a partir de los cuales se transcribieron los textos se realizaron a partir de las copias en microfilm realizadas a lo largo de los años por ProQuest y sus empresas predecesoras, incluida la original University Microfilms, Inc. [2] La Fase I de EEBO-TCP concluyó a fines de 2009, habiendo transcrito alrededor de 25.300 títulos, e inmediatamente pasó a la Fase II de EEBO-TCP (2009–), un proyecto secuela dedicado a convertir todas las monografías únicas restantes en idioma inglés (aproximadamente 45.000 títulos adicionales).

El tercer proyecto del TCP fue Evans-TCP (2003-2007, con algunos trabajos en curso hasta 2010), un esfuerzo para transcribir 6.000 de los 36.000 títulos anteriores a 1800 enumerados en la American Bibliography de Charles Evans, y distribuidos, nuevamente como imágenes de páginas escaneadas a partir de copias en microfilm, por Readex , una división de NewsBank, Inc. bajo el nombre "Archive of Americana" ("Early American Imprints, series I: Evans, 1639–1800"). Evans-TCP ha producido textos electrónicos de casi 5.000 libros.

El último proyecto TCP fue ECCO-TCP (2005-2010, con algunos trabajos en curso), un esfuerzo por transcribir 10.000 libros del siglo XVIII de entre los 136.000 títulos disponibles en el recurso web de Thomson-Gale , "Eighteenth-Century Collections Online" (ECCO). ECCO-TCP se quedó sin financiación en 2010 después de transcribir unos 3.000 títulos (y editar unos 2.400).

Puntos en común del proyecto

Los cuatro proyectos de texto TCP son muy similares. En cada caso:

  1. El TCP produce texto a partir de archivos de imágenes comerciales que a su vez se han creado a partir de copias en microfilm de libros antiguos.
  2. Los proveedores de imágenes comerciales reciben lo que en realidad es un índice de texto completo de su producto de imagen por mucho menos de lo que costaría producirlo ellos mismos: valor agregado a su producto.
  3. Las bibliotecas asociadas en realidad poseen los textos resultantes, en lugar de simplemente licenciarlos, y tienen la libertad (sujeto a algunas condiciones) de montar los textos en cualquier sistema que deseen o de utilizarlos internamente como una herramienta de investigación y enseñanza.
  4. Los textos se crean de acuerdo con estándares determinados por la biblioteca, son uniformes en múltiples conjuntos de datos y potencialmente susceptibles de búsqueda cruzada.
  5. Dado que se crean de forma colaborativa, los textos son relativamente económicos (por libro) y lo son aún más con cada biblioteca que se suma a la asociación.
  6. Con el tiempo los textos se pondrán a disposición del público en general de forma gratuita.
  7. La selección de textos a convertir, si bien difiere de un proyecto a otro, en cada caso sigue principios similares: variedad, importancia, calidad representativa, evitación de duplicaciones; generalmente también se respetan las solicitudes específicas de profesores o iniciativas académicas de las instituciones miembros.
  8. Hasta ahora, TCP se ha interesado principalmente en la creación de textos, no en la creación de un "producto"; aunque los textos de los tres proyectos están o estarán instalados en servidores de la biblioteca de la Universidad de Michigan, el sitio de Michigan no es el sitio oficial de TCP: cualquier biblioteca asociada con los recursos y las garantías adecuadas puede hacer lo mismo. Los textos de EEBO-TCP, por ejemplo, son proporcionados por Michigan, ProQuest, la Biblioteca Digital de la Universidad de Oxford y la Universidad de Chicago.

Organización

El TCP está supervisado por una Junta Directiva, compuesta principalmente por administradores de bibliotecas de alto nivel de instituciones asociadas, representantes de los socios corporativos y el Consejo de Bibliotecas y Recursos de Información (CLIR). La Junta cuenta con la asistencia de un grupo asesor académico que incluye profesores de los campos de inglés moderno temprano y estudios estadounidenses, en cuestiones de selección y becas.

El TCP tiene vínculos informales con varios proyectos de textos académicos de la Universidad, especialmente en lo que respecta a ayudarlos a obtener textos fuente con los que trabajar. Entre las instituciones representadas se incluyen la Universidad Northwestern , la Universidad de Oxford , la Universidad de Washington en St. Louis , la Universidad de Sydney , la Universidad de Toronto y la Universidad de Victoria . El TCP también ha trabajado con estudiantes patrocinando un Concurso de Ensayos de Pregrado cada año, convocando grupos de trabajo sobre los usos de los textos del TCP en pedagogía y solicitando ideas a académicos y estudiantes sobre la selección y el uso.

La producción de textos está a cargo del Servicio de Producción de Bibliotecas Digitales (DLPS) de la Universidad de Michigan , que cuenta con una amplia experiencia en la producción de textos electrónicos codificados en SGML/XML. El DLPS cuenta con la asistencia de los Sistemas y Servicios de Bibliotecas Digitales Bodleian (BDLSS) de la Universidad de Oxford, incluido el difunto Sebastian Rahtz . También se han iniciado pequeñas operaciones de producción a tiempo parcial en otras dos bibliotecas: el Centro de Estudios de la Reforma y el Renacimiento en la Biblioteca Pratt (Universidad Victoria en la Universidad de Toronto), especializado en libros en latín; y la Biblioteca Nacional de Gales (Llyfrgell Genedlaethol Cymru) en Aberystwyth, especializada en libros en galés.

Normas

Los cuatro proyectos de texto del TCP se producen de la misma manera y según los mismos estándares, que están documentados, al menos en parte, en el sitio web del TCP. [3]

  1. Precisión. El TCP se esfuerza por producir textos que se transcriban con la mayor precisión posible, con un índice de precisión general especificado del 99,995 % o superior (es decir, un error o menos cada 20 000 caracteres).
  2. Codificación. Dada la naturaleza del material, el único método que se ha encontrado para lograr tal precisión de manera económica ha sido contratar empresas de conversión de datos para codificar los libros.
  3. Control de calidad. La precisión de la transcripción y la idoneidad del marcado son evaluadas en todos los casos por un grupo de correctores y revisores de la biblioteca, dirigidos por el DLPS de la Universidad de Michigan.
  4. Codificación. Todos los archivos de texto resultantes se marcan en formato SGML o XML válido (el formato SGML se archiva y el formato XML se exporta) de acuerdo con una "Descripción de tipo de documento" (DTD) patentada derivada de la versión P3/P4 del estándar Text Encoding Initiative (TEI).
  5. Marcado con un propósito definido. En comparación con el TEI completo, el DTD TCP es muy simple y está pensado para capturar solo las características más útiles para una visualización inteligible, una navegación inteligente y una búsqueda productiva. La práctica del TCP es capturar, en la medida de lo posible, la estructura jerárquica general de cada libro (partes, secciones, capítulos, etc.); las características que tienden a marcar los comienzos y los finales de las divisiones (encabezados, explícitos, saludos, despedidas, líneas de fecha, firmas, epígrafes, etc.); los elementos más significativos del discurso y la organización (párrafos en prosa, líneas y estrofas en verso, discursos, oradores e instrucciones escénicas en teatro, notas, citas en bloque, numeraciones secuenciales de todo tipo); y solo los aspectos más esenciales del formato físico (saltos de página, listas, tablas, cambios de fuente).
  6. Fidelidad al original. En cada caso, el texto tiene como objetivo reproducir el libro tal como se imprimió originalmente, en la medida de lo posible. Se conservan los errores de imprenta, se ignoran los cambios manuscritos, se omiten los escaneos duplicados, las imágenes desordenadas se copian en el orden previsto y se conservan la mayoría de los caracteres inusuales del original.
  7. Facilidad de lectura y búsqueda. Al mismo tiempo, aunque las transcripciones se realizan carácter por carácter, TCP, basándose en la teoría de que toda transcripción es una especie de traducción de un sistema simbólico a otro, tiende a definir los caracteres en términos más de su significado que de su forma, y ​​a asignar formas de letras excéntricas a equivalentes modernos significativos, generalmente de acuerdo con la definición de "carácter" de Unicode.
  8. Idiomas. Aunque la mayoría de los textos del TCP están en inglés, muchos no lo están. Los libros y las divisiones de libros que no están en inglés están etiquetados con un código de idioma apropiado, pero no se distinguen de ninguna otra manera.
  9. Material omitido. El TCP produce texto en alfabeto latino . El material no textual, como notación musical, fórmulas matemáticas e ilustraciones (excepto el texto que puedan contener), se omite y sus ubicaciones se marcan con una etiqueta especial. El texto extendido en alfabetos no latinos (griego, hebreo, persa, etc.) también se omite.

Logros y perspectivas

En abril de 2011, el TCP había creado cerca de 40.000 transcripciones de texto completo de libros antiguos, navegables y con capacidad de búsqueda, una base de datos de alcance, escala y utilidad inigualables para estudiantes de muchos campos. [ cita requerida ] Si podrá seguir produciendo los 38.000 textos restantes incluidos en sus ambiciosos planes recientes (para la Fase II del EEBO-TCP) dependerá de la validez de su visión original, que surge de la teoría de que las bibliotecas podrían y deberían cooperar para convertirse en productoras y fijadoras de normas en lugar de consumidoras; y que las universidades y las empresas comerciales, a pesar de sus ciclos de vida, limitaciones y motivos muy diferentes, podrían unirse en asociaciones duraderas que beneficien a todas las partes.

A partir del 1 de enero de 2015, el texto completo de la fase I de la EEBO se publicó bajo una licencia Creative Commons y puede descargarse y distribuirse libremente.

En 2014, había 28.466 títulos disponibles a través de la Fase II. A partir de julio de 2015, ProQuest tenía el derecho exclusivo durante cinco años para distribuir la colección EEBO-TCP Fase II. En 2020, los textos se pusieron a disposición del público de forma gratuita. [4]

Véase también

Referencias

  1. ^ Blumenstyk, Goldie (10 de agosto de 2001). "Un proyecto busca digitalizar miles de textos ingleses antiguos". Chronicle of Higher Education : A47 . Consultado el 4 de enero de 2007 .
  2. ^ Beamish, Rita (29 de julio de 1999). "El archivo en línea preservará los primeros libros en inglés". New York Times . Consultado el 4 de enero de 2007 .
  3. ^ "Archivos de producción". Asociación de creación de textos . Consultado el 12 de marzo de 2020 .
  4. ^ "Preguntas frecuentes". Text Creation Partnership . Biblioteca de la Universidad de Michigan . Consultado el 1 de mayo de 2024 .