Pipeline Pilot es una aplicación de software de escritorio desarrollada por Dassault Systèmes . Inicialmente enfocada en procesos de extracción, transformación y carga (ETL) y análisis de datos, el software ha evolucionado para ofrecer capacidades más amplias en diversas aplicaciones científicas e industriales.
Pipeline Pilot utiliza una interfaz de programación visual y de flujo de datos, lo que permite a los usuarios diseñar flujos de trabajo para el procesamiento de datos. La funcionalidad del software abarca varios dominios, incluidos la quimioinformática , QSAR , [1] [2] secuenciación de próxima generación , [3] análisis de imágenes , [4] y análisis de texto . [5]
Pipeline Pilot se utiliza principalmente en industrias que requieren un amplio procesamiento y análisis de datos, incluidas las ciencias biológicas, la ciencia de los materiales y la ingeniería. El software permite a los usuarios crear flujos de trabajo arrastrando y soltando componentes funcionales que automatizan las tareas de análisis de datos, se integran con bases de datos y realizan diversos cálculos científicos. Estos flujos de trabajo se denominan "protocolos" y se pueden compartir y reutilizar dentro de equipos u organizaciones.
El producto es compatible con varios lenguajes de programación, incluidos Python, .NET, Matlab, Perl, SQL, Java, VBScript y R, lo que brinda a los usuarios flexibilidad para integrar código personalizado en sus flujos de trabajo. Además, Pipeline Pilot ofrece compatibilidad con PilotScript, su propio lenguaje de programación basado en PLSQL, que permite a los usuarios realizar manipulaciones de datos personalizadas dentro de sus flujos de trabajo.
Pipeline Pilot ha seguido ampliando sus capacidades con módulos y conjuntos de herramientas adicionales para tareas científicas específicas, como análisis de secuenciación de próxima generación, quimioinformática y predicción de propiedades de polímeros.
Pipeline Pilot fue desarrollado inicialmente por SciTegic , una empresa que fue adquirida por BIOVIA en 2004. En 2014, BIOVIA pasó a formar parte de Dassault Systèmes .
Pipeline Pilot fue diseñado originalmente para aplicaciones en química, pero desde entonces sus capacidades se han ampliado para admitir una gama más amplia de tareas de procesamiento de datos, incluidos procesos de extracción, transformación y carga (ETL), así como tareas generales de análisis y procesamiento de datos en diversos campos. El software se utiliza en dominios como las ciencias biológicas, la ciencia de los materiales y la ingeniería, y ofrece a los usuarios herramientas para crear flujos de trabajo automatizados para el análisis de datos y el cálculo científico.
Pipeline Pilot es una herramienta de software diseñada para la manipulación y el análisis de datos. Proporciona una interfaz gráfica de usuario para que los usuarios creen flujos de trabajo que integren y procesen datos de múltiples fuentes, incluidos archivos CSV, archivos de texto y bases de datos. El software se utiliza comúnmente en tareas de extracción, transformación y carga (ETL).
La interfaz, conocida como Pipeline Pilot Professional Client, permite a los usuarios crear flujos de trabajo seleccionando y organizando unidades de procesamiento de datos individuales denominadas "componentes". Estos componentes realizan una variedad de funciones, como cargar, filtrar, unir o modificar datos. Los componentes adicionales pueden llevar a cabo tareas más complejas, como construir modelos de regresión, entrenar redes neuronales o generar informes en formatos como PDF.
Pipeline Pilot sigue una arquitectura basada en componentes, en la que estos funcionan como nodos en un flujo de trabajo, conectados por "tuberías" que representan el flujo de datos en un gráfico dirigido . Este marco permite el procesamiento de datos a medida que se mueven entre los componentes.
Los usuarios tienen la flexibilidad de trabajar con componentes preinstalados o desarrollar componentes personalizados dentro de flujos de trabajo, denominados "protocolos". Los protocolos, que consisten en componentes vinculados, se pueden guardar, reutilizar y compartir, lo que permite un procesamiento de datos optimizado. La interfaz visualiza las conexiones entre componentes, lo que simplifica los flujos de trabajo de datos complejos al presentarlos como secuencias de operaciones.
Pipeline Pilot ofrece varios complementos denominados "colecciones", que son grupos de funciones especializadas destinadas a dominios específicos, como el procesamiento de información genética o el análisis de polímeros. Estas colecciones están disponibles para los usuarios a cambio de una tarifa de licencia adicional.
Las colecciones están organizadas en dos grupos principales: específicas de la ciencia y genéricas. Las colecciones específicas de la ciencia se centran en áreas como la química, la biología y el modelado de materiales, mientras que las colecciones genéricas proporcionan herramientas para la elaboración de informes, el análisis de datos y la búsqueda de documentos. A continuación se presenta una descripción general de las colecciones disponibles: [6]
Pipeline Pilot se utiliza habitualmente para procesar conjuntos de datos grandes y complejos, que a menudo superan el tamaño de 1 TB. En sus primeras etapas de desarrollo, Pipeline Pilot introdujo un lenguaje de programación llamado "PilotScript", que permite a los usuarios escribir secuencias de comandos básicas que se pueden integrar en un protocolo. Con el tiempo, se agregó compatibilidad con lenguajes de programación adicionales, incluidos Python, .NET, Matlab, Perl, SQL, Java, VBScript y R. Estos lenguajes se pueden utilizar a través de API que ejecutan comandos sin necesidad de la interfaz gráfica de usuario. [7]
PilotScript, un lenguaje basado en PLSQL, se utiliza en componentes específicos como el "Manipulador personalizado (PilotScript)" o el "Filtro personalizado (PilotScript)". A continuación se muestra un ejemplo de un comando PilotScript simple, en el que se agrega una propiedad denominada "Hola" a cada registro que pasa por el componente con el valor "Hola mundo!":
Hola := "¡Hola mundo!" ;