Cuadrícula de datos

Una cuadrícula de datos es una arquitectura o un conjunto de servicios que permite a los usuarios acceder, modificar y transferir cantidades extremadamente grandes de datos distribuidos geográficamente con fines de investigación. ^[1] Las cuadrículas de datos hacen esto posible a través de una serie de aplicaciones y servicios de middleware que reúnen datos y recursos de múltiples dominios administrativos y luego los presentan a los usuarios cuando los solicitan.

Los datos en una cuadrícula de datos pueden estar ubicados en un solo sitio o en varios sitios, donde cada sitio puede ser su propio dominio administrativo regido por un conjunto de restricciones de seguridad sobre quién puede acceder a los datos. ^[2] Del mismo modo, múltiples réplicas de los datos pueden estar distribuidas a lo largo de la cuadrícula fuera de su dominio administrativo original y las restricciones de seguridad impuestas a los datos originales sobre quién puede acceder a ellos deben aplicarse por igual a las réplicas. ^[3] El middleware de cuadrícula de datos desarrollado específicamente es lo que maneja la integración entre los usuarios y los datos que solicitan controlando el acceso y haciéndolos disponibles de la manera más eficiente posible.

Software intermedio

El middleware proporciona todos los servicios y aplicaciones necesarios para la gestión eficiente de conjuntos de datos y archivos dentro de la red de datos, al tiempo que proporciona a los usuarios un acceso rápido a los conjuntos de datos y archivos. ^[4] Hay una serie de conceptos y herramientas que deben estar disponibles para que una red de datos sea viable operativamente. Sin embargo, al mismo tiempo, no todas las redes de datos requieren las mismas capacidades y servicios debido a las diferencias en los requisitos de acceso, la seguridad y la ubicación de los recursos en comparación con los usuarios. En cualquier caso, la mayoría de las redes de datos tendrán servicios de middleware similares que proporcionan un espacio de nombres universal , un servicio de transporte de datos, un servicio de acceso a datos, un servicio de replicación de datos y un servicio de gestión de recursos. Cuando se toman en conjunto, son clave para las capacidades funcionales de las redes de datos.

Espacio de nombres universal

Dado que las fuentes de datos dentro de la cuadrícula de datos consistirán en datos de múltiples sistemas y redes separados que utilizan diferentes convenciones de nombres de archivos , sería difícil para un usuario localizar datos dentro de la cuadrícula de datos y saber que recuperó lo que necesitaba basándose únicamente en los nombres de archivos físicos (PFN) existentes. Un espacio de nombres universal o unificado permite crear nombres de archivos lógicos (LFN) a los que se puede hacer referencia dentro de la cuadrícula de datos que se asignan a PFN. ^[5] Cuando se solicita o consulta un LFN, se devuelven todos los PFN coincidentes para incluir posibles réplicas de los datos solicitados. El usuario final puede elegir entonces de los resultados devueltos la réplica más adecuada para usar. Este servicio generalmente se proporciona como parte de un sistema de gestión conocido como un agente de recursos de almacenamiento (SRB). ^[6] La información sobre las ubicaciones de los archivos y las asignaciones entre los LFN y los PFN se puede almacenar en un catálogo de metadatos o réplicas. ^[7] El catálogo de réplicas contendría información sobre los LFN que se asignan a múltiples PFN de réplica.

Servicio de transporte de datos

Otro servicio de middleware es el de proporcionar transporte o transferencia de datos. El transporte de datos abarcará múltiples funciones que no se limitan solo a la transferencia de bits, para incluir elementos como la tolerancia a fallas y el acceso a datos. ^[8] La tolerancia a fallas se puede lograr en una red de datos proporcionando mecanismos que aseguren que la transferencia de datos se reanudará después de cada interrupción hasta que se reciban todos los datos solicitados. ^[9] Hay múltiples métodos posibles que se pueden utilizar para incluir el inicio de toda la transmisión desde el comienzo de los datos hasta la reanudación desde donde se interrumpió la transferencia. Como ejemplo, GridFTP proporciona tolerancia a fallas al enviar datos desde el último byte reconocido sin comenzar toda la transferencia desde el principio.

El servicio de transporte de datos también proporciona acceso de bajo nivel y conexiones entre hosts para transferencia de archivos. ^[10] El servicio de transporte de datos puede utilizar cualquier número de modos para implementar la transferencia, incluyendo transferencia de datos paralela donde se utilizan dos o más flujos de datos sobre el mismo canal o transferencia de datos en franjas donde dos o más flujos acceden a diferentes bloques del archivo para transferencia simultánea, o también utilizando las capacidades incorporadas subyacentes del hardware de red o protocolos desarrollados específicamente para soportar velocidades de transferencia más rápidas. ^[11] El servicio de transporte de datos puede incluir opcionalmente una función de superposición de red para facilitar el enrutamiento y la transferencia de datos, así como funciones de E/S de archivos que permiten a los usuarios ver archivos remotos como si fueran locales en su sistema. El servicio de transporte de datos oculta la complejidad del acceso y la transferencia entre los diferentes sistemas al usuario, de modo que aparece como una fuente de datos unificada.

Servicio de acceso a datos

Los servicios de acceso a datos trabajan de la mano con el servicio de transferencia de datos para proporcionar seguridad, controles de acceso y gestión de cualquier transferencia de datos dentro de la red de datos. ^[12] Los servicios de seguridad proporcionan mecanismos para la autenticación de usuarios para garantizar que estén correctamente identificados. Las formas comunes de seguridad para la autenticación pueden incluir el uso de contraseñas o Kerberos (protocolo) . Los servicios de autorización son los mecanismos que controlan a qué puede acceder el usuario después de ser identificado a través de la autenticación. Las formas comunes de mecanismos de autorización pueden ser tan simples como los permisos de archivo. Sin embargo, la necesidad de un acceso controlado más estricto a los datos se realiza mediante listas de control de acceso (ACL), control de acceso basado en roles (RBAC) y controles de autorización basados en tareas (TBAC). ^[13] Estos tipos de controles se pueden utilizar para proporcionar acceso granular a los archivos para incluir límites en los tiempos de acceso, duración del acceso a controles granulares que determinan qué archivos se pueden leer o escribir. El servicio de acceso a datos final que podría estar presente para proteger la confidencialidad del transporte de datos es el cifrado. ^[14] La forma más común de cifrado para esta tarea ha sido el uso de SSL durante el transporte. Si bien todos estos servicios de acceso funcionan dentro de la red de datos, los servicios de acceso dentro de los distintos dominios administrativos que alojan los conjuntos de datos seguirán en funcionamiento para aplicar las reglas de acceso. Los servicios de acceso a la red de datos deben estar en sintonía con los servicios de acceso de los dominios administrativos para que esto funcione.

Servicio de replicación de datos

Para satisfacer las necesidades de escalabilidad, acceso rápido y colaboración de los usuarios, la mayoría de las cuadrículas de datos admiten la replicación de conjuntos de datos en puntos dentro de la arquitectura de almacenamiento distribuido. ^[15] El uso de réplicas permite que varios usuarios tengan un acceso más rápido a los conjuntos de datos y la preservación del ancho de banda, ya que las réplicas a menudo se pueden colocar estratégicamente cerca o dentro de los sitios donde los usuarios las necesitan. Sin embargo, la replicación de conjuntos de datos y la creación de réplicas están limitadas por la disponibilidad de almacenamiento dentro de los sitios y el ancho de banda entre sitios. La replicación y la creación de conjuntos de datos de réplicas están controladas por un sistema de administración de réplicas. El sistema de administración de réplicas determina las necesidades de réplicas del usuario en función de las solicitudes de entrada y las crea en función de la disponibilidad de almacenamiento y ancho de banda. ^[16] Luego, todas las réplicas se catalogan o se agregan a un directorio basado en la cuadrícula de datos en cuanto a su ubicación para que los usuarios puedan realizar consultas. Para realizar las tareas realizadas por el sistema de administración de réplicas, debe poder administrar la infraestructura de almacenamiento subyacente. El sistema de administración de datos también garantizará que las actualizaciones oportunas de los cambios en las réplicas se propaguen a todos los nodos.

Estrategia de actualización de la replicación

Existen varias formas en las que el sistema de administración de replicación puede manejar las actualizaciones de las réplicas. Las actualizaciones pueden diseñarse en torno a un modelo centralizado donde una única réplica maestra actualiza a todas las demás, o un modelo descentralizado, donde todos los pares se actualizan entre sí. ^[16] La topología de la ubicación de los nodos también puede influir en las actualizaciones de las réplicas. Si se utiliza una topología jerárquica, las actualizaciones fluirían en una estructura similar a un árbol a través de rutas específicas. En una topología plana, es completamente una cuestión de las relaciones entre pares de nodos la forma en que se realizan las actualizaciones. En una topología híbrida que consta de topologías planas y jerárquicas, las actualizaciones pueden tener lugar a través de rutas específicas y entre pares.

Estrategia de ubicación de la replicación

Existen varias formas en las que el sistema de administración de réplicas puede gestionar la creación y la ubicación de réplicas para servir mejor a la comunidad de usuarios. Si la arquitectura de almacenamiento admite la ubicación de réplicas con suficiente almacenamiento en el sitio, entonces se convierte en una cuestión de las necesidades de los usuarios que acceden a los conjuntos de datos y una estrategia para la ubicación de las réplicas. ^[17] Se han propuesto y probado numerosas estrategias sobre cómo gestionar mejor la ubicación de réplicas de conjuntos de datos dentro de la red de datos para satisfacer los requisitos de los usuarios. No existe una estrategia universal que se adapte mejor a todos los requisitos. Es una cuestión del tipo de red de datos y los requisitos de la comunidad de usuarios para el acceso que determinarán la mejor estrategia a utilizar. Incluso se pueden crear réplicas en las que los archivos están cifrados para garantizar la confidencialidad, lo que sería útil en un proyecto de investigación que trate con archivos médicos. ^[18] La siguiente sección contiene varias estrategias para la ubicación de réplicas.

Replicación dinámica

La replicación dinámica es un enfoque para la colocación de réplicas en función de la popularidad de los datos. ^[19] El método se ha diseñado en torno a un modelo de replicación jerárquica. El sistema de gestión de datos realiza un seguimiento del almacenamiento disponible en todos los nodos. También realiza un seguimiento de las solicitudes (accesos) que los clientes de datos (usuarios) de un sitio están solicitando. Cuando el número de accesos a un conjunto de datos específico supera el umbral de replicación, se activa la creación de una réplica en el servidor que presta servicio directamente al cliente del usuario. Si el servidor de servicio directo, conocido como padre, no tiene suficiente espacio, entonces el padre del padre en la jerarquía es el objetivo para recibir una réplica y así sucesivamente hasta que se agote. El algoritmo del sistema de gestión de datos también permite la eliminación dinámica de réplicas que tienen un valor de acceso nulo o un valor inferior a la frecuencia de los datos que se almacenarán para liberar espacio. Esto mejora el rendimiento del sistema en términos de tiempo de respuesta, número de réplicas y ayuda a equilibrar la carga en la red de datos. Este método también puede utilizar algoritmos dinámicos que determinan si el costo de crear la réplica realmente vale las ganancias esperadas dada la ubicación. ^[16]

Replicación adaptativa

Este método de replicación, al igual que el de la replicación dinámica, se ha diseñado en torno a un modelo de replicación jerárquica que se encuentra en la mayoría de las cuadrículas de datos. Funciona con un algoritmo similar al de la replicación dinámica, en el que las solicitudes de acceso a archivos son un factor primordial para determinar qué archivos se deben replicar. Sin embargo, una diferencia clave es que la cantidad y la frecuencia de las creaciones de réplicas están vinculadas a un umbral dinámico que se calcula en función de las tasas de llegada de solicitudes de los clientes durante un período de tiempo. ^[20] Si la cantidad de solicitudes en promedio supera el umbral anterior y muestra una tendencia ascendente, y las tasas de utilización del almacenamiento indican capacidad para crear más réplicas, se pueden crear más réplicas. Al igual que con la replicación dinámica, se puede eliminar la eliminación de réplicas que tienen un umbral inferior que no se crearon en el intervalo de replicación actual para hacer espacio para las nuevas réplicas.

Replicación de reparto equitativo

Al igual que los métodos de replicación adaptativa y dinámica anteriores, la replicación de reparto justo se basa en un modelo de replicación jerárquico. Además, al igual que los dos anteriores, la popularidad de los archivos desempeña un papel clave a la hora de determinar qué archivos se replicarán. La diferencia con este método es que la ubicación de las réplicas se basa en la carga de acceso y la carga de almacenamiento de los servidores candidatos. ^{[ cita requerida ]} Un servidor candidato puede tener suficiente espacio de almacenamiento pero dar servicio a muchos clientes para el acceso a los archivos almacenados. Colocar una réplica en este candidato podría degradar el rendimiento de todos los clientes que acceden a este servidor candidato. Por lo tanto, la ubicación de las réplicas con este método se realiza evaluando cada nodo candidato en cuanto a la carga de acceso para encontrar un nodo adecuado para la ubicación de la réplica. Si todos los nodos candidatos tienen una clasificación equivalente para la carga de acceso, ninguno o menos acceso que el otro, entonces se elegirá el nodo candidato con la carga de almacenamiento más baja para alojar las réplicas. Se utilizan métodos similares a los otros métodos de replicación descritos para eliminar las réplicas no utilizadas o con menos solicitudes, si es necesario. Las réplicas eliminadas podrían trasladarse a un nodo principal para su reutilización posterior si se volvieran populares nuevamente.

Otra replicación

Las tres estrategias de réplica anteriores son sólo tres de las muchas estrategias de réplica posibles que se pueden utilizar para colocar réplicas dentro de la red de datos donde mejorarán el rendimiento y el acceso. A continuación se presentan otras que se han propuesto y probado junto con las estrategias de réplica descritas anteriormente. ^[21]

Estático : utiliza un conjunto fijo de réplicas de nodos sin cambios dinámicos en los archivos que se replican.
Mejor cliente : cada nodo registra la cantidad de solicitudes por archivo recibidas durante un intervalo de tiempo preestablecido; si la cantidad de solicitudes excede el umbral establecido para un archivo, se crea una réplica en el mejor cliente, aquel que solicitó el archivo con más frecuencia; las réplicas obsoletas se eliminan según otro algoritmo.
Cascada : se utiliza en una estructura de nodos jerárquica en la que las solicitudes por archivo recibidas durante un intervalo de tiempo preestablecido se comparan con un umbral. Si se supera el umbral, se crea una réplica en el primer nivel desde la raíz; si se supera nuevamente el umbral, se agrega una réplica al siguiente nivel y así sucesivamente como un efecto de cascada hasta que se coloca una réplica en el cliente mismo.
Almacenamiento en caché simple : si el cliente solicita un archivo, este se almacena como una copia en el cliente.
Almacenamiento en caché más cascada : combina dos estrategias de almacenamiento en caché y cascada.
Propagación rápida : también utilizada en una estructura de nodos jerárquica, esta estrategia rellena automáticamente todos los nodos en la ruta del cliente que solicita un archivo.

Programación de tareas y asignación de recursos

Las características de los sistemas de cuadrícula de datos, como su gran escala y heterogeneidad, requieren métodos específicos de programación de tareas y asignación de recursos. Para resolver este problema, la mayoría de los sistemas utilizan métodos de programación clásicos extendidos ^[22] . Otros recurren a métodos fundamentalmente diferentes basados en incentivos para los nodos autónomos, como el dinero virtual o la reputación de un nodo. Otra característica específica de las cuadrículas de datos, la dinámica, consiste en el proceso continuo de conexión y desconexión de nodos y el desequilibrio de carga local durante la ejecución de tareas. Esto puede hacer que los resultados de la asignación inicial de recursos para una tarea sean obsoletos o no óptimos. Como resultado, muchas de las cuadrículas de datos utilizan técnicas de adaptación del tiempo de ejecución que permiten a los sistemas reflejar los cambios dinámicos: equilibrar la carga, reemplazar los nodos que se desconectan, utilizar las ganancias de los nodos recién conectados y recuperar la ejecución de una tarea después de fallas.

Sistema de gestión de recursos (RMS)

El sistema de gestión de recursos representa la funcionalidad principal de la red de datos. Es el corazón del sistema que gestiona todas las acciones relacionadas con los recursos de almacenamiento. En algunas redes de datos puede ser necesario crear una arquitectura RMS federada debido a las diferentes políticas administrativas y a la diversidad de posibilidades que se encuentran dentro de la red de datos en lugar de utilizar un único RMS. En tal caso, los RMS de la federación emplearán una arquitectura que permita la interoperabilidad basada en un conjunto acordado de protocolos para las acciones relacionadas con los recursos de almacenamiento. ^[23]

Capacidades funcionales del RMS

Cumplimiento de solicitudes de recursos de datos por parte de usuarios y aplicaciones en función del tipo de solicitud y políticas; RMS podrá admitir múltiples políticas y múltiples solicitudes simultáneamente
Programación, cronometraje y creación de réplicas
Aplicación de políticas y seguridad dentro de los recursos de la red de datos para incluir autenticación, autorización y acceso.
Apoyar sistemas con diferentes políticas administrativas para interoperar preservando la autonomía del sitio
Soporte de calidad de servicio (QoS) cuando se solicite si la función está disponible
Hacer cumplir los requisitos de tolerancia a fallas y estabilidad del sistema
Administrar recursos, es decir, almacenamiento en disco, ancho de banda de red y cualquier otro recurso que interactúe directamente o como parte de la red de datos.
Administrar confianzas relativas a recursos en dominios administrativos; algunos dominios pueden imponer restricciones adicionales sobre cómo participan, lo que requiere la adaptación del RMS o la federación.
Admite adaptabilidad, extensibilidad y escalabilidad en relación con la red de datos.

Topología

Posibles topologías de cuadrícula de datos

Las cuadrículas de datos se han diseñado teniendo en cuenta múltiples topologías para satisfacer las necesidades de la comunidad científica. A la derecha se muestran cuatro diagramas de varias topologías que se han utilizado en cuadrículas de datos. ^[24] Cada topología tiene un propósito específico en mente para el mejor uso que se le dará. Cada una de estas topologías se explica con más detalle a continuación.

La topología de federación es la opción ideal para las instituciones que desean compartir datos de sistemas ya existentes. Permite que cada institución controle sus datos. Cuando una institución con la debida autorización solicita datos de otra institución, la institución que recibe la solicitud debe determinar si los datos se enviarán a la institución solicitante. La federación puede estar integrada de forma flexible entre instituciones, integrada de forma estrecha o una combinación de ambas.

La topología monádica tiene un repositorio central al que se ingresan todos los datos recopilados. El repositorio central responde a todas las consultas de datos. En esta topología no hay réplicas, a diferencia de otras. Solo se accede a los datos desde el repositorio central, que puede ser a través de un portal web. Un proyecto que utiliza esta topología de cuadrícula de datos es la Red para la Simulación de Ingeniería Sísmica (NEES) en los Estados Unidos. ^[25] Esto funciona bien cuando todo el acceso a los datos es local o dentro de una sola región con conectividad de alta velocidad.

La topología jerárquica se presta a la colaboración cuando existe una única fuente de datos y es necesario distribuirlos a múltiples lugares del mundo. Uno de esos proyectos que se beneficiaría de esta topología sería el CERN , que gestiona el Gran Colisionador de Hadrones , que genera enormes cantidades de datos. Estos datos se encuentran en una única fuente y deben distribuirse por todo el mundo a las organizaciones que colaboran en el proyecto.

La topología híbrida es simplemente una configuración que contiene una arquitectura que consiste en cualquier combinación de las topologías mencionadas anteriormente. Se utiliza principalmente en situaciones en las que los investigadores que trabajan en proyectos desean compartir sus resultados para futuras investigaciones, poniéndolos a disposición de la colaboración.

Historia

La necesidad de redes de datos fue reconocida por primera vez por la comunidad científica en relación con el modelado climático , donde los conjuntos de datos de tamaño terabyte y petabyte se estaban convirtiendo en la norma para el transporte entre sitios. ^[10] Los requisitos de investigación más recientes para las redes de datos han sido impulsados por el Gran Colisionador de Hadrones (LHC) en CERN , el Observatorio de Ondas Gravitacionales con Interferometría Láser (LIGO) y el Sloan Digital Sky Survey (SDSS) . Estos ejemplos de instrumentos científicos producen grandes cantidades de datos que deben ser accesibles para grandes grupos de investigadores dispersos geográficamente. ^[26]^[27] Otros usos para las redes de datos involucran a gobiernos, hospitales, escuelas y empresas donde se están realizando esfuerzos para mejorar los servicios y reducir los costos al brindar acceso a sistemas de datos dispersos y separados mediante el uso de redes de datos. ^[28]

Desde sus inicios, el concepto de una red de datos para apoyar a la comunidad científica se consideró como una extensión especializada de la “red”, que en un principio se concibió como una forma de conectar supercomputadoras a metacomputadoras. ^[29] Sin embargo, esto duró poco y la red evolucionó hasta significar la capacidad de conectar computadoras en cualquier lugar de la web para obtener acceso a cualquier archivo y recurso deseado, de manera similar a la forma en que se distribuye electricidad a través de una red simplemente enchufando un dispositivo. El dispositivo obtiene electricidad a través de su conexión y la conexión no está limitada a una toma de corriente específica. A partir de esto, la red de datos se propuso como una arquitectura integradora que sería capaz de entregar recursos para cálculos distribuidos. También podría atender de numerosas a miles de consultas al mismo tiempo, al tiempo que entregaba gigabytes a terabytes de datos para cada consulta. La red de datos incluiría su propia infraestructura de gestión capaz de gestionar todos los aspectos del rendimiento y el funcionamiento de las redes de datos en múltiples redes de área amplia, al tiempo que funcionaba dentro del marco existente conocido como la web. ^[30]

La cuadrícula de datos también se ha definido más recientemente en términos de usabilidad; qué debe ser capaz de hacer una cuadrícula de datos para que sea útil para la comunidad científica. Los defensores de esta teoría llegaron a varios criterios. ^[31] Uno, los usuarios deberían poder buscar y descubrir recursos aplicables dentro de la cuadrícula de datos entre sus muchos conjuntos de datos. Dos, los usuarios deberían poder localizar conjuntos de datos dentro de la cuadrícula de datos que sean más adecuados para sus necesidades entre numerosas réplicas. Tres, los usuarios deberían poder transferir y mover grandes conjuntos de datos entre puntos en un corto período de tiempo. Cuatro, la cuadrícula de datos debería proporcionar un medio para gestionar múltiples copias de conjuntos de datos dentro de la cuadrícula de datos. Y finalmente, la cuadrícula de datos debería proporcionar seguridad con controles de acceso de usuario dentro de la cuadrícula de datos, es decir, qué usuarios tienen permiso para acceder a qué datos.

La red de datos es una tecnología en evolución que continúa cambiando y creciendo para satisfacer las necesidades de una comunidad en expansión. Uno de los primeros programas que se iniciaron para hacer realidad las redes de datos fue financiado por la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) en 1997 en la Universidad de Chicago . ^[32] Esta investigación generada por DARPA ha continuado el camino hacia la creación de herramientas de código abierto que hacen posibles las redes de datos. A medida que surjan nuevos requisitos para las redes de datos, surgirán o se expandirán proyectos como el Globus Toolkit para cubrir la brecha. Las redes de datos junto con la "Grid" seguirán evolucionando.

Notas

^ Allcock, Bill; Chervenak, Ann; Foster, Ian; et al. Herramientas de cuadrícula de datos: facilitación de la ciencia en grandes datos distribuidos
^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio distribuido de datos: gestión y procesamiento p.37
^ Shorfuzzaman, Mohammad; Graham, Peter; Eskicioglu, Rasit. Colocación de réplicas adaptativas en cuadrículas de datos jerárquicos. p.15
^ Padala, Pradeep. Un estudio sobre middleware de datos para sistemas Grid p.1
^ Padala, Pradeep. Un estudio sobre middleware de datos para sistemas Grid
^ Arcot, Rajasekar; Wan, Michael; Moore, Reagan; Schroeder, Wayne; Kremenek. Agente de recursos de almacenamiento: gestión de datos distribuidos en una red
^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio distribuido de datos: gestión y procesamiento p.11
^ Coetzee, Serena. Modelo de referencia para un enfoque de cuadrícula de datos para abordar los datos en una IDE dinámica p.16
^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio distribuido de datos: gestión y procesamiento p.21
^ ab Allcock, Bill; Foster, Ian; Nefedova, Veronika; Chervenak, Ann; Deelman, Ewa ; Kesselman, Carl. Acceso remoto de alto rendimiento a datos de simulación climática: un problema desafiante para las tecnologías de cuadrícula de datos.
^ Izmailov, Rauf; Ganguly, Samrat; Tu, Nan. Replicación rápida de archivos en paralelo en una cuadrícula de datos, p. 2
^ Raman, Vijayshankar; Narang, Inderpal; Crone, Chris; Hass, Laura; Malaika, Susan. Servicios para el acceso y procesamiento de datos en redes
^ Thomas, RK y Sandhu RS Controles de autorización basados en tareas (tbac): una familia de modelos para la gestión de autorizaciones activa y orientada a la empresa
^ Sreelatha, Malempati. Enfoque basado en cuadrículas para la confidencialidad de los datos. p.1
^ Chervenak, Ann; Schuler, Robert; Kesselman, Carl; Koranda, Scott; Moe, Brian. Replicación de datos de área amplia para colaboraciones científicas
^ abc Lamehamedi, Houda; Szymanski, Boleslaw; Shentu, Zujun; Deelman, Ewa . Estrategias de replicación de datos en entornos de red
^ Padala, Pradeep. Un estudio sobre middleware de datos para sistemas Grid
^ Kranthi, G. y Rekha, D. Shashi. Replicación de objetos de datos protegidos en la cuadrícula de datos, pág. 40
^ Belalem, Ghalem y Meroufel, Bakhta. Gestión y colocación de réplicas en una cuadrícula de datos jerárquica
^ Shorfuzzaman, Mohammad; Graham, Peter; Eskicioglu, Rasit. Colocación de réplicas adaptativas en cuadrículas de datos jerárquicas
^ Ranganathan, Kavitha y Foster, Ian. Identificación de estrategias de replicación dinámica para una red de datos de alto rendimiento
^ Epimakhov, Igor; Hameurlain, Abdelkader; Dillon, Tharam; Morvan, Franck. Métodos de programación de recursos para la optimización de consultas en sistemas de cuadrícula de datos
^ Krauter, Klaus; Buyya, Rajkumar; Maheswaran, Muthucumaru. Una taxonomía y un estudio de los sistemas de gestión de recursos de red para la computación distribuida
^ Zhu, Lichun. Gestión de metadatos en la federación de bases de datos en cuadrícula
^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio distribuido de datos: gestión y procesamiento p.16
^ Allcock, Bill; Chervenak, Ann; Foster, Ian; et al. pág. 571
^ Tierney, Brian L. Redes de datos y problemas de rendimiento de las redes de datos. p.7
^ Thibodeau, P. Los gobiernos planean proyectos de redes de datos
^ Heingartner, Douglas. La red: la Internet de próxima generación
^ Heingartner, Douglas. La red: la Internet de próxima generación
^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio distribuido de datos: gestión y procesamiento p.1
^ Globus. Acerca del kit de herramientas de Globus

Referencias

Allcock, Bill; Chervenak, Ann; Foster, Ian; Kesselman, Carl; Livny, Miron (2005). "Herramientas de cuadrícula de datos: facilitación de la ciencia en grandes datos distribuidos". Journal of Physics: Conference Series . 16 (1): 571–575. Bibcode :2005JPhCS..16..571A. CiteSeerX 10.1.1.379.4325 . doi :10.1088/1742-6596/16/1/079. S2CID 250673712.

Allcock, Bill; Foster, Ian; Nefedova, Veronika l; Chervenak, Ann; Deelman, Ewa ; Kesselman, Carl; Lee, Jason; Sim, Alex; Shoshani, Arie; Drach, Bob; Williams, Dean (2001). "Acceso remoto de alto rendimiento a datos de simulación climática: un problema desafiante para las tecnologías de cuadrícula de datos". ACM Press . CiteSeerX 10.1.1.64.6603 . {{cite journal}}: Requiere citar revista |journal=( ayuda )

Arcot, Rajasekar; Wan, Michael; Moore, Reagan; Schroeder, Wayne; Kremenek, George. «Agente de recursos de almacenamiento: gestión de datos distribuidos en una red». Archivado desde el original el 7 de mayo de 2006. Consultado el 28 de abril de 2012 .

Belalem, Ghalem; Meroufel, Bakhta (2011). "Gestión y colocación de réplicas en una cuadrícula de datos jerárquica". Revista internacional de sistemas distribuidos y paralelos . 2 (6): 23–30. doi : 10.5121/ijdps.2011.2603 . Consultado el 28 de abril de 2012 .

Chervenak, A.; Foster, I.; Kesselman, C.; Salisbury, C.; Tuecke, S. (2001). "La cuadrícula de datos: hacia una arquitectura para la gestión distribuida y el análisis de grandes conjuntos de datos científicos" (PDF) . Journal of Network and Computer Applications . 23 (3): 187–200. CiteSeerX 10.1.1.32.6963 . doi :10.1006/jnca.2000.0110 . Consultado el 11 de abril de 2012 .

Chervenak, Ann; Schuler, Robert; Kesselman, Carl; Koranda, Scott; Moe, Brian (14 de noviembre de 2005). "Replicación de datos de área amplia para colaboraciones científicas" (PDF) . IEEE . Consultado el 25 de abril de 2012 .

Coetzee, Serena (2012). "Modelo de referencia para un enfoque de cuadrícula de datos para abordar datos en una IDE dinámica". GeoInformatica . 16 (1): 111–129. doi :10.1007/s10707-011-0129-4. hdl : 2263/18263 . S2CID 19837152.

Epimakhov, Igor; Hameurlain, Abdelkader; Dillon, Tharam; Morvan, Franck (2011). "Métodos de programación de recursos para la optimización de consultas en sistemas de cuadrícula de datos". Avances en bases de datos y sistemas de información. 15.ª Conferencia internacional, ADBIS 2011. Viena, Austria: Springer Berlin Heidelberg. págs. 185–199. doi :10.1007/978-3-642-23737-9_14.

Globus (2012). «Acerca del kit de herramientas de Globus». Globus . Consultado el 27 de mayo de 2012 .

Heingartner, Douglas (8 de marzo de 2001). «The Grid: The Next-Gen Internet». Wired . Archivado desde el original el 4 de mayo de 2012. Consultado el 13 de mayo de 2012 .

Izmailov, Rauf; Ganguly, Samrat; Tu, Nan (2004). "Replicación rápida de archivos en paralelo en una red de datos" (PDF) . Archivado desde el original (PDF) el 21 de abril de 2012. Consultado el 10 de mayo de 2012 .

Kranthi, G. Aruna; Rekha, D. Shashi (2012). "Replicación de objetos de datos protegidos en la red de datos". Revista internacional de seguridad de redes y sus aplicaciones . 4 (1): 29–41. doi : 10.5121/ijnsa.2012.4103 . ISSN 0975-2307.

Krauter, Klaus; Buyya, Rajkumar; Maheswaran, Muthucumaru (2002). "Una taxonomía y estudio de los sistemas de gestión de recursos de red para computación distribuida". Software: práctica y experiencia . 32 (2): 135–164. CiteSeerX 10.1.1.38.2122 . doi :10.1002/spe.432. S2CID 816774.

Lamehamedi, Houda; Szymanski, Boleslaw; Shentu, Zujun; Deelman, Ewa (2002). "Estrategias de replicación de datos en entornos de red". Quinta Conferencia Internacional sobre Algoritmos y Arquitecturas para Procesamiento Paralelo (ICA3PP'02) . Prensa. págs. 378–383. CiteSeerX 10.1.1.11.5473 .

Padala, Pradeep. "Un estudio de middleware de datos para sistemas Grid". CiteSeerX 10.1.1.114.1901 . {{cite journal}}: Requiere citar revista |journal=( ayuda )

Raman, Vijayshankar; Narang, Inderpal; Crone, Chris; Hass, Laura; Malaika, Susan (9 de febrero de 2003). "Servicios para el acceso a datos y el procesamiento de datos en redes" (PDF) . Consultado el 10 de mayo de 2012 .

Ranganathan, Kavitha; Foster, Ian (2001). "Identificación de estrategias de replicación dinámica para una red de datos de alto rendimiento". En Proc. del Taller Internacional de Computación en Red . págs. 75–86. CiteSeerX 10.1.1.20.6836 . doi :10.1007/3-540-45644-9_8.

Shorfuzzaman, Mohammad; Graham, Peter; Eskicioglu, Rasit (2010). "Colocación de réplicas adaptativas en cuadrículas de datos jerárquicos". Journal of Physics: Conference Series . 256 (1): 1–18. Bibcode :2010JPhCS.256a2020S. doi : 10.1088/1742-6596/256/1/012020 .

Sreelatha, Malempati (2011). "Enfoque basado en cuadrícula para la confidencialidad de los datos". Revista internacional de aplicaciones informáticas . 25 (9): 1–5. Bibcode :2011IJCA...25i...1M. CiteSeerX 10.1.1.259.4326 . doi :10.5120/3063-4186. ISSN 0975-8887.

Thibodeau, P. (30 de mayo de 2005). "Governments plan data grid projects". Computerworld . 39 (42): 14. ISSN 0010-4841 . Consultado el 28 de abril de 2012 .

Thomas, RK; Sandhu, RS (1997). "Controles de autorización basados en tareas (tbac): una familia de modelos para la gestión de autorizaciones activa y orientada a la empresa" (PDF) . Consultado el 28 de abril de 2012 .

Tierney, Brian L. (2000). "Cuadrículas de datos y problemas de rendimiento de las cuadrículas de datos" (PDF) . Consultado el 28 de abril de 2012 .

Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri (2006). "Una taxonomía de cuadrículas de datos para el uso compartido, la gestión y el procesamiento distribuido de datos" (PDF) . ACM Computing Surveys . 38 (1): 1–60. arXiv : cs/0506034 . CiteSeerX 10.1.1.59.6924 . doi :10.1145/1132952.1132955. S2CID 1379579 . Consultado el 10 de abril de 2012 .

Zhu, Lichun. "Gestión de metadatos en la federación de bases de datos en cuadrícula" (PDF) . Consultado el 15 de mayo de 2012 .^{[ enlace muerto permanente ]}

Lectura adicional

Allcock, W. (abril de 2003). "Gridftp: extensiones de protocolo a FTP para la red" (PDF) . Argonne National Laboratory . Consultado el 20 de abril de 2012 .

Allcock, W.; Bresnahan, J.; Kettimuthu, R.; Link, M.; Dumitrescu, C.; Raicu, I.; Foster, I. (noviembre de 2005). "El marco y servidor gridftp con rayas globus" (PDF) . ACM Press . Consultado el 20 de abril de 2012 .

Foster, Ian; Kesselman, Carl; Tuecke, Steven (2001). "La anatomía de la red que permite organizaciones virtuales escalables" (PDF) . Revista internacional de aplicaciones informáticas de alto rendimiento . 15 (3): 200–222. arXiv : cs/0103025 . Bibcode :2001cs........3025F. CiteSeerX 10.1.1.24.9069 . doi :10.1177/109434200101500302. S2CID 28969310 . Consultado el 10 de abril de 2012 .

Foster, Ian; Kesselman, Carl; Nick, Jeffrey M.; Tuecke, Steven (22 de junio de 2002). "La fisiología de la red: una arquitectura de servicios de red abierta para la integración de sistemas distribuidos". Archivado desde el original el 22 de marzo de 2008. Consultado el 10 de mayo de 2012 .

Hancock, B. (2009). "Una cuadrícula de datos simple utilizando el sistema operativo Inferno". Biblioteca Hi Tech . 27 (3): 382–392. doi :10.1108/07378830910988513.

Hoschek, W.; McCance, G. (10 de octubre de 2001). "Grid enabled relationshipal database middleware" (PDF) . Global Grid Forum . Archivado desde el original (PDF) el 28 de enero de 2006 . Consultado el 22 de abril de 2012 .

Kunszt, Peter Z.; Guy, Leanne P. (7 de julio de 2002). "La arquitectura de servicios de red abierta y las redes de datos" (PDF) . Consultado el 10 de mayo de 2012 .

Moore, Reagan W. "Evolución de los conceptos de cuadrícula de datos" (PDF) . Archivado desde el original (PDF) el 12 de febrero de 2014. Consultado el 10 de mayo de 2012 .

Rajkumar, Kettimuthu; Allcock, William; Liming, Lee; Navarro, John-Paul; Foster, Ian (30 de marzo de 2007). "GridCopy moviendo datos rápidamente en la red" (PDF) . Simposio internacional de procesamiento paralelo y distribuido (IPDPS 2007) . Long Beach: IEEE International. págs. 1–6 . Consultado el 29 de abril de 2012 .

Thenmozhi, N.; Madheswaran, M. (2011). "Mecanismo de transferencia de datos basado en contenido para una transferencia eficiente de datos masivos en un entorno de computación en red". Revista internacional de computación en red y aplicaciones . 2 (4): 49–62. doi : 10.5121/ijgca.2011.2405 . ISSN 2229-3949 . Consultado el 28 de abril de 2012 .

Tu, Manghui; Li, Peng; I-Ling, Yen; Thuraisingham, Bhavani; Khan, Latifur (2010). "Replicación segura de objetos de datos en la red de datos" (PDF) . IEEE Transactions on Dependable and Secure Computing . 7 (1): 50–64. doi :10.1109/tdsc.2008.19. S2CID 8934783 . Consultado el 26 de abril de 2012 .^{[ enlace muerto permanente ]}