stringtranslate.com

Base de datos muy grande

Una base de datos muy grande , (originalmente escrita very large data base ) o VLDB , [1] es una base de datos que contiene una cantidad muy grande de datos, tanta que puede requerir metodologías especializadas de arquitectura, gestión, procesamiento y mantenimiento. [2] [3] [4] [5]

Definición

Los adjetivos vagos de muy y grande permiten una interpretación amplia y subjetiva, pero se han hecho intentos de definir una métrica y un umbral. Las primeras métricas eran el tamaño de la base de datos en forma canónica a través de la normalización de la base de datos o el tiempo para una operación completa de la base de datos como una copia de seguridad . Las mejoras tecnológicas han cambiado continuamente lo que se considera muy grande . [6] [7]

Una definición sugiere que una base de datos se convierte en una VLDB cuando es "demasiado grande para ser mantenida dentro de la ventana de oportunidad... el tiempo en que la base de datos está inactiva". [8]

Tamaños de una base de datos VLDB

No existe una cantidad absoluta de datos que se pueda citar. Por ejemplo, no se puede decir que cualquier base de datos con más de 1 TB de datos se considera una VLDB. Esta cantidad absoluta de datos ha variado con el tiempo a medida que los métodos de procesamiento, almacenamiento y copia de seguridad de las computadoras se han vuelto más capaces de manejar mayores cantidades de datos. [5] Dicho esto, los problemas con las VLDB pueden comenzar a aparecer cuando se acerca a 1 TB, [8] [9] y es más que probable que hayan aparecido cuando se superan los 30 TB aproximadamente. [10]

Desafíos de VLDB

Las áreas clave en las que una VLDB puede presentar desafíos incluyen configuración, almacenamiento, rendimiento, mantenimiento, administración, disponibilidad y recursos del servidor. [11] : 11 

Configuración

Es necesaria una configuración cuidadosa de las bases de datos que se encuentran en el ámbito VLDB para aliviar o reducir los problemas que plantean las bases de datos VLDB. [11] : 36–53  [12]

Administración

Las complejidades de administrar una VLDB pueden aumentar exponencialmente para el administrador de la base de datos a medida que aumenta el tamaño de la base de datos. [13]

Disponibilidad y mantenimiento

Cuando se trata de operaciones de VLDB relacionadas con el mantenimiento y la recuperación, como reorganizaciones de bases de datos y copias de archivos que eran bastante prácticas en una base de datos que no era VLDB, se requieren cantidades significativas de tiempo y recursos para una base de datos VLDB. [14] En particular, normalmente no es factible cumplir con un objetivo de tiempo de recuperación (RTO) típico, el tiempo máximo esperado que se espera que una base de datos no esté disponible debido a una interrupción, mediante métodos que implican copiar archivos desde el disco u otros archivos de almacenamiento. [13] Para superar estos problemas, técnicas como la agrupación en clústeres, bases de datos clonadas/replicadas/en espera, instantáneas de archivos, instantáneas de almacenamiento o un administrador de copias de seguridad pueden ayudar a lograr el RTO y la disponibilidad, aunque los métodos individuales pueden tener limitaciones, advertencias, licencias y requisitos de infraestructura, mientras que algunos pueden arriesgarse a perder datos y no cumplir con el objetivo de punto de recuperación (RPO). [15] [16] [13] [17] [18] Para muchos sistemas, solo las soluciones geográficamente remotas pueden ser aceptables. [19]

Copia de seguridad y recuperación

La mejor práctica es que la copia de seguridad y la recuperación se diseñen en términos de la solución general de disponibilidad y continuidad del negocio. [20] [21]

Actuación

Dada la misma infraestructura, puede haber típicamente una disminución en el rendimiento, es decir, un aumento en el tiempo de respuesta a medida que aumenta el tamaño de la base de datos. Algunos accesos simplemente tendrán más datos para procesar (escanear) lo que tomará proporcionalmente más tiempo ( tiempo lineal ); mientras que los índices utilizados para acceder a los datos pueden crecer ligeramente en altura requiriendo quizás un acceso de almacenamiento adicional para alcanzar los datos ( tiempo sublineal ). [22] Otros efectos pueden ser que el almacenamiento en caché se vuelva menos eficiente porque proporcionalmente se pueden almacenar menos datos en caché y mientras que algunos índices como el B+ se sostienen bien automáticamente con el crecimiento, otros como una tabla hash pueden necesitar ser reconstruidos.

Si un aumento en el tamaño de la base de datos hace que aumente la cantidad de usuarios que acceden a la base de datos, se pueden consumir más recursos del servidor y de la red, y aumentará el riesgo de contención . Algunas soluciones para recuperar el rendimiento incluyen la partición , la agrupación en clústeres , posiblemente con fragmentación , o el uso de una máquina de base de datos . [23] : 390  [24]

Particionado

La partición puede ayudar al rendimiento de operaciones masivas en una VLDB, incluidas las copias de seguridad y la recuperación., [25] movimientos masivos debido a la gestión del ciclo de vida de la información (ILM), [26] : 3  [27] : 105–118  reduciendo la contención [27] : 327–329  así como permitiendo la optimización de algunos procesamientos de consultas. [27] : 215–230 

Almacenamiento

Para satisfacer las necesidades de una VLDB, el almacenamiento de la base de datos debe tener baja latencia y contención de acceso , alto rendimiento y alta disponibilidad .

Recursos del servidor

El aumento del tamaño de una VLDB puede ejercer presión sobre los recursos del servidor y de la red y puede aparecer un cuello de botella que puede requerir una inversión en infraestructura para resolverlo. [13] [28]

Relación con el big data

VLDB no es lo mismo que big data , pero el aspecto de almacenamiento de big data puede involucrar una base de datos VLDB. [2] Dicho esto, algunas de las soluciones de almacenamiento que admiten big data se diseñaron desde el principio para admitir grandes volúmenes de datos, por lo que los administradores de bases de datos pueden no encontrar problemas de VLDB que podrían encontrar las versiones anteriores de los RDBMS tradicionales . [29]

Véase también

Referencias

  1. ^ "Oracle Database Online Documentation 11g Release 1 (11.1) / Database Administration Database Concepts" (Documentación en línea de Oracle Database 11g versión 1 (11.1) / Administración de bases de datos Conceptos de bases de datos) . Oracle . 18 Bases de datos muy grandes (VLDB) . Consultado el 3 de octubre de 2018 .
  2. ^ ab «Very Large Database (VLDB)». Technopedia . Archivado desde el original el 4 de julio de 2018. Consultado el 3 de octubre de 2018 .
  3. ^ Gaines, RS y R. Gammill. Bases de datos de gran tamaño: un área de investigación emergente, documento de trabajo informal, RAND Corporation
  4. ^ Revista de procesamiento de datos . North American Publishing Company. 1964. pág. 18,58.
  5. ^ ab Widlake, Marin (18 de septiembre de 2009). "¿Qué es una VLDB?". mwidlake . Archivado desde el original el 6 de octubre de 2018 . Consultado el 7 de octubre de 2018 .
  6. ^ Sidley, Edgar H. (1 de abril de 1980). Enciclopedia de informática y tecnología: volumen 14: sistemas de bases de datos muy grandes para memoria cero y fuentes de información de Markov. CRC Press. págs. 1–18. ISBN 9780824722142.
  7. ^ Gerritsen, Rob; Morgan, Howard; Zisman, Michael (junio de 1977). "Sobre algunas métricas para bases de datos o ¿qué es una base de datos muy grande?". ACM SIGMOD Record . 9 (1): 50–74. doi : 10.1145/984382.984393 . ISSN  0163-5808. S2CID  6359244.
  8. ^ ab Rankins, Ray; Jensen, Paul; Bertucci, Paul (18 de diciembre de 2002). "21" . Microsoft SQL Server 2000 (2.ª ed.). SAMS. ISBN 978-0672324673. Administración de bases de datos SQL Server muy grandes.
  9. ^ "Oracle Database Release 18 - VLDB and Partitioning Guide" . Oracle . 1 Introducción a bases de datos muy grandes. Archivado desde el original el 3 de octubre de 2018 . Consultado el 3 de octubre de 2018 .
  10. ^ "El problema de las bases de datos muy grandes: cómo realizar copias de seguridad y recuperar bases de datos de entre 30 y 100 TB" (PDF) . actifio. Archivado (PDF) del original el 19 de febrero de 2018.
  11. ^ ab Hussain, Syed Jaffer (2014). "Ajuste y aplicación de las mejores prácticas en bases de datos muy grandes (VLDB)" (PDF) . Sangam: AIOUG. Archivado (PDF) del original el 4 de octubre de 2018.
  12. ^ Chaves, Warner (7 de enero de 2015). "Los 10 elementos más importantes que debe tener en cuenta para su base de datos de gran tamaño de SQL Server". SQLTURBO . Archivado desde el original el 13 de diciembre de 2017 . Consultado el 5 de octubre de 2018 .
  13. ^ abcd Furman, Dimitri (22 de enero de 2018). Rajesh Setlem; Mike Weiner; Xiaochen Wu (eds.). "SQL Server VLDB in Azure: DBA Tasks Made Simple". MSDN . Archivado desde el original el 6 de octubre de 2018 . Consultado el 6 de octubre de 2018 .
  14. ^ "Requisitos especializados para servidores de almacenamiento de datos relacionales". Red Brick Systems, Inc. 21 de junio de 1996. Archivado desde el original el 10 de octubre de 1997.
  15. ^ "Consideraciones sobre el diseño de clústeres". Crouchbase . Archivado desde el original el 17 de octubre de 2018. Consultado el 17 de octubre de 2017 .
  16. ^ "Replicación entre centros de datos (XDCR)". Crouchbase . Archivado desde el original el 17 de octubre de 2018 . Consultado el 17 de octubre de 2017 .
  17. ^ Chien, Tim. "Las instantáneas NO son copias de seguridad" . Oracle technetwork . Archivado desde el original el 7 de septiembre de 2018. Consultado el 10 de octubre de 2018 .
  18. ^ "Uso de un espejo dividido como imagen de copia de seguridad" . IBM Knowledge Center . Archivado desde el original el 9 de enero de 2018 . Consultado el 10 de octubre de 2018 .
  19. ^ "Capítulo 1 Alta disponibilidad y escalabilidad". dev.mysql . Archivado desde el original el 15 de diciembre de 2016 . Consultado el 12 de octubre de 2018 .
  20. ^ Brooks, Charlotte; Leung, Clem; Mirza, Aslam; Neal, Curtis; Qiu, Yin Lei; Sing, John; Wong, Francis TH; Wright, Ian R (marzo de 2007). "Capítulo 1. Definición de tres segmentos de soluciones empresariales". IBM System Storage Business Continuity: Part 2 Solutions Guide . IBM Redbooks. ISBN 978-0738489728.
  21. ^ Akhtar, Ali Navid; Buchholtz, Jeff; Ryan, Michael; Setty, Kumar (2012). "Mejores prácticas de copia de seguridad y recuperación de bases de datos". Archivado desde el original el 29 de junio de 2018. Consultado el 12 de octubre de 2012 .
  22. ^ Tariq, Ovais (14 de julio de 2011). "Entender los índices B+tree y cómo impactan en el rendimiento". ovaistariq.net . Archivado desde el original el 7 de febrero de 2018 . Consultado el 10 de octubre de 2018 .
  23. ^ Shrestha, Raju (2017). Alta disponibilidad y rendimiento de bases de datos en la nube: replicación maestro-esclavo tradicional frente a soluciones modernas basadas en clústeres. 7.ª Conferencia internacional sobre computación y servicios en la nube. Vol. 1: CLOSER. SCITEPRESS – Science and Technology Publications, Lda. doi : 10.5220/0006294604130420 . hdl : 10642/6140 . ISBN . 978-989-758-243-1Archivado desde el original el 17 de octubre de 2018.
  24. ^ "Enciclopedia". Definición de: máquina de base de datos. Archivado desde el original el 4 de julio de 2016 . Consultado el 10 de octubre de 2018 .
  25. ^ Burleson, Donald (26 de marzo de 2015). "Consejos sobre Oracle Backup VLDB". Burleson Consulting . Archivado desde el original el 30 de junio de 2017. Consultado el 11 de octubre de 2016 .
  26. ^ "Oracle Partitioning in Oracle Database 12c Release 2 Extreme Data Management and Performance for every System" (PDF) . Oracle . Marzo de 2017. Archivado (PDF) del original el 15 de diciembre de 2017 . Consultado el 17 de octubre de 2018 .
  27. ^ abc Teske, Thomas (8 de febrero de 2018). Obtenga lo mejor de Oracle Partitioning: una guía práctica y referencia (PDF) (Discurso). Cern . Hermann Bär. 40-S2-C01 - Salle Curie (CERN): Oracle. Archivado (PDF) del original el 12 de octubre de 2018. Consultado el 12 de octubre de 2018 .{{cite speech}}: Mantenimiento de CS1: ubicación ( enlace )
  28. ^ Steel, Phil; Poggemeyer, Liza; Plett, Corey (1 de agosto de 2018). «Consideraciones sobre el rendimiento del hardware del servidor». Microsoft IT Pro Center . Archivado desde el original el 17 de octubre de 2018. Consultado el 17 de octubre de 2018 .
  29. ^ Li, Yishan; Manoharan, Sathiamoorthy (2013). Una comparación de rendimiento de bases de datos SQL y NoSQL . Conferencia IEEE Pacific Rim de 2013 sobre comunicaciones, computadoras y procesamiento de señales (PACRIM). IEEE. pág. 15. doi :10.1109/PACRIM.2013.6625441. ISBN 978-1-4799-1501-9.