Coeficiente intelectual de SAP

SAP IQ (anteriormente conocido como SAP Sybase IQ o Sybase IQ ; IQ para Intelligent Query ) es un sistema de software de base de datos relacional basado en columnas y a escala de petabytes que se utiliza para inteligencia empresarial , almacenamiento de datos y marts de datos. Producido por Sybase Inc. , ahora una empresa de SAP , su función principal es analizar grandes cantidades de datos en un entorno de bajo costo y alta disponibilidad. A SAP IQ se le atribuye a menudo ^[1] el mérito de ser pionero en la comercialización de la tecnología de almacenamiento en columnas.

En la base de SAP IQ se encuentra una tecnología de almacenamiento en columnas que permite la compresión de velocidad y el análisis ad hoc. SAP IQ tiene un enfoque de interfaz abierta hacia su ecosistema. SAP IQ también está integrado con la cartera de productos de inteligencia empresarial de SAP para formar una pila de software de análisis empresarial de extremo a extremo y es un componente integral de la arquitectura In-Memory Data Fabric y la plataforma de gestión de datos de SAP.

Historia

A principios de los años 90, Expressway Technologies, Inc., con sede en Waltham, Massachusetts, desarrolló Expressway 103, un motor basado en columnas optimizado para análisis, que con el tiempo se convertiría en Sybase IQ. Sybase adquirió Expressway y volvió a presentar el producto en 1995 como IQ Accelerator, para luego cambiarle el nombre poco después a Sybase IQ, dándole el número de versión 11.0. ^[2]

Al ofrecer el producto IQ como parte de una colección de tecnologías relacionadas que a menudo se encuentran en un almacén de datos (incluidos Sybase Adaptive Server Enterprise , Replication Server, PowerDesigner PowerDesigner y SQL Anywhere ), Sybase se convirtió en una de las primeras empresas convencionales en reconocer la necesidad de productos especializados para el mercado de almacenamiento de datos. ^[3]

Con la versión 12.0, Sybase reemplazó la interfaz de consulta acoplada de forma flexible de Adaptive Server Enterprise por un acoplamiento estrecho con SQL Anywhere.

La versión 16 trae un almacén de columnas rediseñado para volúmenes de datos extremos, de escala de petabytes, y una compresión de datos más extrema. ^[4]

En 2014, SAP HANA, junto con sus socios BMMsoft, HP, Intel, NetApp y Red Hat, anunció el almacén de datos más grande del mundo. Un equipo de ingenieros de SAP, BMMsoft, HP, Intel, NetApp y Red Hat, construyó el almacén de datos utilizando SAP HANA y SAP IQ 16, con BMMsoft Federated EDMT ejecutándose en servidores HP DL580 utilizando procesadores Intel Xeon E7-4870 bajo Red Hat Enterprise Linux 6 y almacenamiento NetApp FAS6290 y E5460. El desarrollo y las pruebas del almacén de datos de 12,1 PB fueron realizadas por el laboratorio SAP/Intel Petascale en Santa Clara, California, y auditadas por InfoSizing, un auditor independiente certificado por el Consejo de Procesamiento de Transacciones. ^[5]

Historial de versiones

Con el lanzamiento de SP08, los números de versión se han modificado para que coincidan con los números de versión de SAP HANA y reflejen la integración continua del producto con SAP HANA. El título de la versión actual, SP03, es una continuación de SP02 y cubre todas las plataformas que no se ven afectadas por la versión.

Estructura de datos en memoria

El nuevo enfoque de SAP optimiza y simplifica el almacenamiento de datos convirtiéndolo en una estructura de datos en memoria. ^[6]

SAP IQ con SAP HANA

Con la llegada del big data , SAP IQ se ha asociado con SAP HANA para ofrecer una plataforma de análisis distribuida en memoria. Hay tres aplicaciones y casos de uso principales que intentan aprovechar las fortalezas de SAP IQ en cuanto a escalabilidad y rendimiento como procesador de big data y EDW, al tiempo que aprovechan la velocidad en memoria de SAP HANA para la generación de informes operativos:

SAP IQ como servicio Near-line (NLS) para SAP HANA

https://blogs.sap.com/2016/10/12/sap-nls-solution-sap-bw

SAP HANA para informes operativos con SAP IQ para procesamiento de big data (NLS)

En este escenario, los datos de planificación de recursos empresariales (ERP) de SAP se introducen en SAP HANA, que actúa como un almacén de datos operativos para su análisis inmediato. Una vez analizados los datos, se integran en SAP IQ a través de mecanismos de almacenamiento Near-line (como se describió anteriormente). En este caso, SAP IQ actúa como un almacén de datos empresariales que recibe datos de una variedad de fuentes tradicionales (como bases de datos OLTP y sistemas de archivos) y SAP HANA Operational Data Store (ODS) ^[7].

https://blogs.sap.com/2019/05/22/q-the-easy-installer-for-sap-iq/

SAP IQ como almacén de datos empresarial (EDW) con SAP HANA como centro de datos ágil

Cuando se utiliza SAP IQ como EDW, también se puede ampliar con la tecnología en memoria de HANA. Los usos comunes incluyen informes de planificación y análisis donde se necesita procesamiento OLTP simultáneo. En este caso, los datos fluyen de SAP IQ a SAP HANA. ^[7] SAP BusinessObjects BI se puede utilizar para lograr visibilidad en ambas plataformas.

Tecnología

Para un usuario, SAP IQ parece un DBMS relacional con una capa de lenguaje basada en SQL accesible a través de controladores ODBC / JDBC . Sin embargo, en su interior, Sybase IQ es un DBMS orientado a columnas , que almacena tablas de datos como secciones de columnas de datos en lugar de filas de datos como la mayoría de las bases de datos transaccionales.

Arquitectura de columnas y almacenes

La orientación por columnas tiene varias ventajas. ^[8] Si se realiza una búsqueda de elementos que coinciden con un valor particular en una columna de datos, solo se necesita acceder a los objetos de almacenamiento correspondientes a esa columna de datos dentro de la tabla. Una base de datos tradicional basada en filas tendría que leer toda la tabla, de arriba a abajo. Otra ventaja es que cuando se indexa correctamente, un valor que tendría que almacenarse una vez en cada fila de datos en una base de datos tradicional se almacena solo una vez, y en SAP IQ, se utiliza un índice de n bits para acceder a los datos. ^[9] La indexación de n bits y por niveles se utiliza para permitir una mayor compresión y cargas por lotes incrementales y rápidas.

Además, el almacenamiento basado en columnas permite a SAP IQ comprimir datos de manera eficiente sobre la marcha. ^[10]

Almacén de columnas de SAP IQ

Tecnología de indexación

Antes de SAP IQ 16, cada página de datos estaba estructurada como una matriz de celdas de un tamaño fijo, por lo que todos los valores tenían el mismo tipo de datos. Si bien este enfoque de almacenamiento es eficiente para datos estructurados y de longitud fija, esto no es válido para los datos más desestructurados y de tamaño variable que se ven hoy en día. Para combatir la ineficiencia del almacenamiento y almacenar datos de tamaño variable con un mínimo desperdicio de espacio, cada página está compuesta de celdas de un tamaño variable que se empaquetan juntas; la arquitectura de almacenamiento en columnas admite una cantidad variable de celdas por página y varios formatos de página dentro de una columna. SAP IQ también aplica algoritmos de compresión Lempel-Ziv-Welch (LZW) ^[11] a cada página de datos cuando se escribe en el disco, para reducir significativamente el volumen de datos. ^[12]

Los mapas de bits se utilizan para índices secundarios. ^[11]

Indexación de SAP IQ

Marco de procesamiento masivo en paralelo

SAP IQ tiene un marco de procesamiento masivamente paralelo (MPP) basado en un entorno de todo compartido que admite el procesamiento distribuido de consultas. La mayoría de los demás productos capaces de MPP tienden a basarse en entornos de nada compartido . El beneficio del todo compartido es que es más flexible en términos de la variedad de consultas que se pueden optimizar, especialmente para equilibrar las necesidades de muchos usuarios simultáneos. La desventaja es que en casos extremos, la competencia entre procesadores para acceder a un grupo compartido de almacenamiento (generalmente una red de área de almacenamiento) puede generar contención de E/S , lo que afecta el rendimiento de las consultas.[12]

Sin embargo, la arquitectura de almacenamiento antes mencionada de SAP IQ permite que las capas de cómputo y almacenamiento se escalen independientemente una de otra y también permite que estos recursos se aprovisionen a pedido para una mejor utilización sin reestructurar la base de datos subyacente.

Arquitectura Multiplex

SAP IQ utiliza una arquitectura de red agrupada, que se compone de clústeres de servidores SAP IQ o Multiplex. Estos clústeres se utilizan para escalar el rendimiento para una gran cantidad de consultas simultáneas o consultas que son muy complejas. Esto se basa en una arquitectura compartida donde todos los nodos de cómputo interactúan con el mismo almacenamiento compartido y las consultas tienen la capacidad de distribuirse entre todos los nodos de cómputo. El Multiplex tiene un nodo coordinador que administra el catálogo de la base de datos y coordina las escrituras transaccionales en el almacenamiento. Otros nodos pueden ser nodos de solo lectura o de lectura y escritura, como el nodo coordinador. La estructura de almacenamiento se puede implementar con numerosas tecnologías que permiten compartir entre los nodos multiplex.

Esta arquitectura tiene múltiples usos, entre ellos, el equilibrio de la carga de trabajo y los data marts virtuales elásticos. El equilibrio de la carga de trabajo se logra mediante el motor de consultas SAP IQ a través del aumento o la disminución dinámicos del paralelismo en respuesta a los cambios en la actividad del servidor. Existe una conmutación por error automática si un nodo deja de participar en una consulta, y otros nodos retomarán el trabajo asignado originalmente al nodo fallido para que la consulta pueda completarse. En el lado del cliente, la compatibilidad con los balanceos de carga externos garantiza que las consultas se inicien en servidores físicos de manera equilibrada para eliminar cuellos de botella. Los nodos físicos en Multiplex se pueden agrupar en "servidores lógicos" que permiten aislar las cargas de trabajo entre sí (por motivos de seguridad o equilibrio de recursos); se pueden agregar máquinas a estos a medida que cambia la demanda. El objetivo de la arquitectura de red es permitir la resiliencia incluso durante las transacciones globales.

Arquitectura multiplex de SAP IQ
Caso de uso de SAP IQ Multiplex

Cargando motor

El motor de carga SAP IQ se puede utilizar para cargas incrementales por lotes, de baja latencia, simultáneas y masivas (con archivos de datos de cliente y servidor). El proceso de carga masiva permite que se realicen varios procesos de carga simultáneamente, si las cargas son de diferentes tablas. Los datos se pueden cargar desde otras bases de datos, así como también desde archivos. El control de versiones de instantáneas a nivel de página permite cargas y consultas simultáneas, y el bloqueo se produce solo a nivel de tabla. Con SAP Replication Server, ahora mejorado para optimizar las cargas en SAP IQ, las transacciones se compilan en el menor conjunto de operaciones posible y luego se realizan cargas masivas por microlotes en SAP IQ, lo que da la apariencia de cargas continuas en tiempo real.

El cargador masivo ahora realiza todas las operaciones en paralelo para aprovechar al máximo todos los núcleos del servidor, eliminar cuellos de botella y mantener todos los subprocesos productivos, en lugar de serializar el proceso. El proceso de carga sigue siendo un proceso de dos fases: primero se leen los datos sin procesar y se crean índices FP, y luego se crean índices secundarios, pero todo se ejecuta en paralelo. Los índices de grupo alto, en los que se basa el optimizador de consultas para obtener información sobre qué columnas o filas contienen qué valores de datos, ahora están estructurados como un conjunto de niveles, que aumentan a medida que se desciende por la pirámide.

Por último, SAP IQ presenta un almacén Delta optimizado para escritura y con versiones a nivel de fila (RLV), que permite cargas de datos de alta velocidad y una rápida disponibilidad de los datos para los usuarios. Este almacén está mínimamente indexado y comprimido, con bloqueo a nivel de fila para escritura simultánea, y su propio registro de transacciones, y es solo de anexión, y actúa como un complemento del almacén principal, con datos que se cargan a alta velocidad al almacén RLV y migran al almacén principal más tarde, fusionándose con él periódicamente. Para el usuario no parece que haya dos entidades separadas en funcionamiento y las consultas funcionan de forma transparente en los dos almacenes. Para hacer uso de esto, los usuarios pueden especificar tablas de base de datos "activas" particulares como tablas RLV.

Motor de carga SAP IQ

API de marco y de cliente

SAP IQ ofrece API de consulta basadas en estándares ANSI SQL puros (con pocas restricciones), que incluyen compatibilidad con OLAP y búsqueda de texto completo. Los procedimientos almacenados son compatibles con los dialectos ANSI SQL y Transact-SQL, y se pueden ejecutar de forma programada o inmediata. También hay controladores de base de datos para una variedad de lenguajes de programación como JAVA, C/C++m PHP, PERL, Python, Ruby y ADO.Net.

Manejo de datos no estructurados

SAP IQ es un motor de análisis que puede consultar datos estructurados y no estructurados y combinar los resultados. SAP IQ introdujo un nuevo índice de texto y una cláusula SQL "contains" para facilitar esta tarea mediante la búsqueda de términos dentro de un bloque de texto no estructurado; las asociaciones de SAP Sybase con los proveedores permiten que se incorporen varias formas binarias de archivos de texto en SAP IQ y se creen índices de texto para ellos; estos índices de texto preparan los datos para que las aplicaciones de análisis de texto de nivel superior realicen búsquedas de texto completo dentro de SAP IQ a través de instrucciones SELECT. La sintaxis SELECT puede ser utilizada por aplicaciones que realizan tokenización, categorización y análisis de texto adicionales.

Análisis en la base de datos / Marco de extensibilidad

Los análisis en la base de datos se basan en el concepto fundamental de mantener los algoritmos de análisis cerca de los datos para lograr un mayor rendimiento. El marco de extensibilidad, denominado "análisis en la base de datos", permite la incorporación de funciones analíticas dentro del motor de base de datos de SAP IQ, trasladando los análisis a la base de datos, en lugar de a un entorno especializado fuera de la base de datos, un proceso que es propenso a errores y más lento. Las funciones predefinidas están disponibles de forma nativa y a través de socios de SAP IQ que proporcionan bibliotecas especializadas de minería de datos y estadísticas que se conectan a SAP IQ. Este marco aumenta la capacidad de SAP IQ para realizar un procesamiento y análisis avanzados, ya que los datos no tienen que trasladarse de la base de datos a un entorno especializado para el análisis. Todos los datos y resultados obtenidos se pueden compartir a través del DBMS y se pueden adquirir fácilmente a través de una interfaz SQL. A través de las funciones definidas por el usuario (UDFS), los socios pueden ampliar el DBMS con cálculos personalizados, proporcionando bibliotecas especializadas de minería de datos y estadísticas que se conectan directamente a SAP IQ para mejorar su rendimiento de procesamiento y análisis avanzados.

Seguridad

SAP IQ ofrece varias funciones, incluidas en el producto base y licenciables por separado, para ayudar a proteger la seguridad de los datos del usuario. Una nueva función introducida en IQ 16 es el Control de acceso basado en roles (RBAC), que permite la separación de funciones y defiende el principio del mínimo privilegio , al permitir la división de operaciones privilegiadas en conjuntos de granularidad fina que se pueden otorgar individualmente a los usuarios. Como parte del producto base se incluyen: usuarios, grupos y permisos, autoridades de administración de bases de datos, políticas de inicio de sesión de usuarios, cifrado de bases de datos, seguridad de la capa de transporte, IPV6, control de acceso basado en roles y auditoría de bases de datos. Las funciones adicionales forman parte de una opción licenciable denominada opción de seguridad avanzada: cifrado FIPS, autenticación Kerberos, autenticación LDAP y cifrado de columnas de bases de datos.

Seguridad de SAP IQ

Gestión del ciclo de vida de la información (ILM)

Como parte de ILM, SAP IQ permite a los usuarios crear múltiples DBSpaces de usuario (unidades lógicas de almacenamiento/contenedores para objetos de base de datos) para organizar los datos. Esto se puede utilizar para separar datos estructurados o no estructurados, agruparlos según su antigüedad y valor, o para particionar datos de tablas. Los DBSpaces también se pueden marcar como de solo lectura para permitir la comprobación de la coherencia y la realización de copias de seguridad por única vez. Otra aplicación de ILM es la capacidad de particionar tablas y colocar partes móviles a lo largo de la estructura de almacenamiento y las capacidades de copia de seguridad; esto permite un proceso de gestión de almacenamiento en el que los datos pasan por un almacenamiento en niveles, pasando de un almacenamiento más rápido y costoso a un almacenamiento más lento y económico a medida que envejece, particionando los datos según su valor.

Alta disponibilidad y recuperación ante desastres

La configuración multiplex proporciona escalabilidad y alta disponibilidad para los nodos de cómputo porque un nodo coordinador multiplex puede conmutar por error a un nodo coordinador alternativo.

SAP IQ Virtual Backup también permite a los usuarios realizar copias de seguridad de los datos rápidamente y, junto con la tecnología de replicación de almacenamiento, los datos se copian continuamente para que las copias de seguridad se puedan realizar rápidamente y "entre bastidores". Una vez que se completan las copias de seguridad virtuales, se pueden verificar mediante pruebas y restauraciones; los datos empresariales se pueden copiar para el desarrollo y la prueba. Luego, todo lo que queda es completar la copia de seguridad en un punto en el tiempo transaccionalmente consistente. SAP afirma que la recuperación ante desastres es más fácil con un enfoque de MPP de todo compartido. La herramienta de modelado SAP Sybase PowerDesigner permite a los usuarios crear un modelo ILM que se puede implementar con SAP IQ. Los tipos de almacenamiento, los espacios de base de datos y las fases del ciclo de vida se pueden definir en un modelo ILM y la herramienta se puede utilizar para generar informes y crear scripts de creación y movimiento de particiones.

Integración de Hadoop

SAP IQ proporciona federación con el sistema de archivos distribuidos Hadoop (HDFS), un marco muy popular para big data, de modo que los usuarios empresariales puedan seguir almacenando datos en Hadoop y aprovechar sus beneficios. La integración se logra de cuatro formas diferentes, según las necesidades del usuario, a través de la federación del lado del cliente, ETL, datos y federación de consultas. La federación del lado del cliente une datos de IQ y Hadoop en un nivel de aplicación cliente, mientras que la federación ETL permite al usuario cargar datos de Hadoop en los esquemas de almacenamiento de columnas de IQ. Los datos de HDFS también se pueden unir con datos de IQ sobre la marcha a través de consultas SQL desde IQ y, por último, los resultados de los trabajos de MapReduce se pueden combinar con datos de IQ, también sobre la marcha.

Centro de control SAP

SAP Control Center reemplaza a Sybase Central como herramienta gráfica basada en la Web para administración y monitoreo. SAP Control Center se puede utilizar para monitorear servidores y recursos SAP Sybase (nodos, multiplex) desde cualquier ubicación, así como para monitorear el rendimiento y detectar tendencias de uso. La aplicación web tiene una arquitectura de complemento de varios niveles que se compone de un servidor y agentes basados en productos que devuelven el rendimiento de SAP Sybase al servidor de Control Center.

Análisis habilitado para la Web

SAP IQ incluye controladores de aplicaciones habilitados para la Web que facilitan el acceso a SAP IQ desde una variedad de entornos de ejecución y programación Web 2.0 (Python, Perl, PHP, .Net, Ruby). A través de la federación de consultas con otras bases de datos, los desarrolladores pueden crear aplicaciones que interactúen con múltiples fuentes de datos al mismo tiempo (así como con plataformas de bases de datos de otros proveedores). Se pueden crear tablas proxy de federación que se asignan a tablas en bases de datos externas; estas se materializan como tablas en memoria pero se puede interactuar con ellas como si residieran dentro de SAP IQ. De esta manera, las fuentes de datos se pueden combinar en una vista unificada.

Plataformas compatibles

SAP IQ también admite la incorporación de algoritmos externos escritos en C++ y Java . Las consultas SQL pueden llamar a estos algoritmos, lo que permite la ejecución de análisis en la base de datos, lo que proporciona un mejor rendimiento y escalabilidad. Además, Sybase IQ también proporciona controladores para el acceso a través de lenguajes como PHP , Perl , Python y Ruby on Rails .

SAP IQ es compatible con la mayoría de las principales plataformas de sistemas operativos, incluidas:

Sun Solaris de 64 bits
Red Hat Linux de 64/32 bits
SuSE Linux de 64/32 bits
HP-UX de 64 bits
HP-UX Itanium de 64 bits
IBM-AIX de 64 bits
Windows de 64/32 bits

Clientes

Sybase afirma que Sybase IQ está instalado actualmente en más de 2000 sitios de clientes. Entre los clientes más destacados se incluyen comScore Inc. , ^[13] CoreLogic , Investment Technology Group (ITG), ^[14] y el Servicio de Impuestos Internos (IRS) de los Estados Unidos. ^[15]

Si bien Sybase IQ se ha utilizado ampliamente para implementaciones específicas de tipo data mart, ^[16] también se ha implementado como un almacén de datos empresarial.

Referencias

^ C-Store: un DBMS orientado a columnas Archivado el 19 de junio de 2010 en Wayback Machine , Stonebraker et al., Actas de la 31.ª Conferencia VLDB, Trondheim, Noruega, 2005
^ Cole, Barb (7 de noviembre de 1994), Sybase apuesta por el almacenamiento de datos mediante una adquisición, Network World
^ Moore, Trevor (2010), Guía de supervivencia de Sybase IQ , pág. 16, ISBN 978-1-4466-5758-4
^ "¡SAP Sybase IQ 16 para análisis XLDB ya está disponible! - Blogs de SAP". scn.sap.com .
^ "SAP y sus socios establecen un nuevo récord para el almacén de datos más grande del mundo". Nota de prensa . SAP. 5 de marzo de 2014 . Consultado el 19 de agosto de 2016 .
^ "Soluciones de almacenamiento de datos | Tecnología | SAP". Archivado desde el original el 27 de noviembre de 2014. Consultado el 27 de mayo de 2014 .
^ ab "¿Cómo funciona todo esto en conjunto? BW, BW en HANA, Suite en HANA, HANA Live... Parte 8 - Blogs de SAP". scn.sap.com .
^ MacNicol, Roger; French, Blaine (agosto de 2004), Sybase IQ Multiplex – Designed For Analytics (PDF) , Actas de la 31.ª Conferencia VLDB, Trondheim, Noruega
^ Nota de cita de Sybase IQ#Moore-1
^ "Copia archivada". Archivado desde el original el 28 de mayo de 2014. Consultado el 27 de mayo de 2014 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
^ ab http://blasthemy.com/sap/TechEd13/1_Session_PDFs/RDP/RDP107/RDP107.pdf ^{[ URL desnuda PDF ]}
^ "Dobler Consulting - Sybase - SQL Server - Oracle - MongoDB" (PDF) . www.doblerconsulting.com . Archivado desde el original (PDF) el 29 de mayo de 2014.
^ Henschen, Doug (24 de noviembre de 2010), La implementación de Big Data de ComScore en detalle, Information Week
^ Clark, Don (18 de noviembre de 2007), Las empresas emergentes explotan el campo de las bases de datos: un software ágil ayuda a dar sentido a la información Tide (PDF) , Wall Street Journal, archivado desde el original (PDF) el 16 de agosto de 2011
^ Lai, Eric (22 de marzo de 2008), ¿Ha sido objeto de una auditoría últimamente? La culpa es del gigantesco y superrápido almacén de datos del IRS, ComputerWorld
^ Henschen, Doug (12 de julio de 2011), Sybase IQ obtiene capacidades de análisis más sólidas, Information Week

Enlaces externos

Sitio web de SAP IQ
Wiki de la comunidad SAP IQ
Documentación de SAP IQ
Página de soporte de SAP IQ
Documentos técnicos en SybaseWiki