Cuadrícula P

En el almacenamiento de datos distribuidos , un P-Grid es un sistema peer-to-peer estructurado y autoorganizado que puede admitir distribuciones de claves arbitrarias (y, por lo tanto, admitir el ordenamiento de claves lexicográficas y consultas de rango), y al mismo tiempo proporcionar equilibrio de carga de almacenamiento y búsqueda eficiente mediante enrutamiento aleatorio.

Características destacadas

Buen equilibrio de carga de almacenamiento a pesar de la distribución arbitraria de la carga en el espacio de claves. ^[1]
Las consultas de rango se pueden soportar de manera natural y procesar de manera eficiente en P-Grid porque P-Grid abstrae una estructura trie y admite una distribución (bastante) arbitraria de claves, como se observa en escenarios realistas. ^[1]
Se crea un directorio autorreferencial para proporcionar persistencia de la identidad de pares en múltiples sesiones. ^[1]
Un mecanismo de actualización basado en chismes primitivos para mantener actualizado el contenido replicado. ^[1]
Fácil fusión de múltiples P-Grids y, por lo tanto, arranque descentralizado de la red P-Grid. ^[1]
El almacenamiento en caché adaptable a consultas es fácil de implementar en P-Grid para proporcionar equilibrio de carga de consultas donde los pares tienen capacidad restringida. ^[1]

Descripción general

Para simplificar, esta figura no muestra replicación.

P-Grid abstrae un trie y resuelve consultas basándose en la coincidencia de prefijos. La topología real no tiene jerarquía. Las consultas se resuelven mediante la coincidencia de prefijos. Esto también determina la elección de las entradas de la tabla de enrutamiento. Cada par, para cada nivel del trie, mantiene de forma autónoma entradas de enrutamiento elegidas aleatoriamente de los subárboles complementarios. ^[2] De hecho, se mantienen múltiples entradas para cada nivel en cada par para proporcionar tolerancia a fallas (así como potencialmente para la gestión de la carga de consultas). Por diversas razones, incluida la tolerancia a fallas y el equilibrio de carga, varios pares son responsables de cada nodo de hoja en el árbol P-Grid. Estos se denominan réplicas. Los pares de réplica mantienen una subred de réplica independiente y utilizan una comunicación basada en chismes para mantener actualizado el grupo de réplicas. ^[3] La redundancia tanto en la replicación de particiones de espacio de claves como en la red de enrutamiento en conjunto se denomina replicación estructural. La figura anterior muestra cómo se resuelve una consulta al reenviarla en función de la coincidencia de prefijos. ^{[ cita requerida ]}

Consultas de rango en P-Grid

P-Grid divide el espacio de claves en una granularidad que se adapta a la carga en esa parte del espacio de claves. En consecuencia, es posible realizar una red superpuesta de P-Grid donde cada par tiene una carga de almacenamiento similar incluso para distribuciones de carga no uniformes. Esta red probablemente proporciona una búsqueda de claves tan eficiente como las tablas hash distribuidas (DHT) tradicionales. Tenga en cuenta que, a diferencia de P-Grid, las DHT funcionan de manera eficiente solo para distribuciones de carga uniformes. ^[4]

Por lo tanto, podemos utilizar una función de preservación del orden lexicográfico para generar las claves y, al mismo tiempo, lograr una red P-Grid con equilibrio de carga que admita la búsqueda eficiente de claves exactas. Además, debido a la preservación del orden lexicográfico, las consultas de rango se pueden realizar de manera eficiente y precisa en P-Grid. La estructura de trie de P-Grid permite diferentes estrategias de consulta de rango, procesadas en serie o en paralelo, compensando la sobrecarga de mensajes y la latencia de resolución de consultas. ^[5] Los marcos arquitectónicos de almacenamiento de datos simples basados en vectores también están sujetos a limitaciones de consultas variables dentro del entorno P-Grid. ^[6]

Referencias

^ abcdef Antonopoulos, Nick (2010). Manual de investigación sobre sistemas P2P y Grid para computación orientada a servicios: modelos, metodologías y aplicaciones: Modelos, metodologías y aplicaciones . IGI Global. págs. 323–892.
^ Ray, Chhanda (2009). Sistemas de bases de datos distribuidas . Pearson Education India. págs. 87–121.
^ Jepsen, Thomas (2013). Redes de almacenamiento distribuido: arquitectura, protocolos y gestión . John Wiley & Sons. págs. 37–79.
^ Pitoura, Pitoura; Ntarmos, Nikos; Triantafillou, Peter (2006). Replicación, equilibrio de carga y procesamiento eficiente de consultas de rango en DHT . Conferencia internacional sobre la extensión de la tecnología de bases de datos. págs. 131–148. doi :10.1007/11687238_11.
^ Datta, A.; Hauswirth, M.; John, R.; Schmidt, R.; Aberer, K. (2005). Consultas de rango en superposiciones estructuradas en trie. Quinta Conferencia Internacional IEEE sobre Computación entre pares. págs. 57–66. doi :10.1109/P2P.2005.31. ISBN 0-7695-2376-5.
^ Oliker, Leonid; Canning, Andrew; Carter, Jonathan; Shalf, John; Ethier, Stéphane (2008). "Rendimiento de aplicaciones científicas en las principales plataformas de supercomputación escalar y vectorial". Revista internacional de aplicaciones informáticas de alto rendimiento . 22 : 5–20. doi :10.1177/1094342006085020. S2CID 5347699.

Enlaces externos

manfredhauswirth.org