Pipeline Pilot es un programa de software de escritorio vendido por Dassault Systèmes para procesar y analizar datos. Originalmente se utilizó por sus capacidades de análisis y ETL ( extracción, transformación y carga ) básicas, que se han ampliado con el tiempo.
El programa tiene la capacidad de diseñar flujos de trabajo de datos utilizando una interfaz gráfica de usuario. Es un software de programación visual y de flujo de datos y se ha utilizado en quimioinformática , QSAR , [1] [2] [3] secuenciación de próxima generación , [4] análisis de imágenes , [5] [6] y análisis de texto .
Pipeline Pilot fue creado por SciTegic . Posteriormente, BIOVIA adquirió SciTegic y Pipeline Pilot en 2004. BIOVIA fue adquirida por Dassault Systèmes en 2014.
El producto se amplió desde un enfoque inicial en la química para incluir capacidades generales de extracción, transformación y carga (ETL), analíticas y de procesamiento de datos.
Pipeline Pilot es parte de una clase de productos de software que proporcionan interfaces de usuario para manipular y analizar datos. Al igual que otros productos gráficos ETL, permite a los usuarios extraer datos de diferentes fuentes, como archivos CSV, archivos de texto y bases de datos.
La interfaz gráfica de usuario , llamada Pipeline Pilot Professional Client, permite a los usuarios arrastrar y soltar unidades de procesamiento de datos discretas llamadas "componentes". Los componentes pueden cargar, filtrar, unir o manipular datos. Los componentes también pueden crear modelos de regresión, entrenar redes neuronales o procesar conjuntos de datos en informes PDF. Pipeline Pilot implementa un paradigma de componentes . Los componentes se representan como nodos en un flujo de trabajo. En un sentido matemático, los componentes se modelan como nodos en un gráfico dirigido : las "tuberías" (bordes del gráfico) conectan componentes y mueven datos de un nodo a otro, donde se realizan operaciones con los datos.
Los usuarios pueden elegir entre componentes que vienen preinstalados o crear sus propios componentes en flujos de trabajo llamados "protocolos". Los protocolos son conjuntos de componentes vinculados. Los protocolos se pueden guardar, reutilizar y compartir. Los usuarios pueden mezclar y combinar los componentes que se proporcionan con el software de BIOVIA con sus propios componentes personalizados. Las conexiones entre dos componentes se denominan "tuberías" y en el software se visualizan como dos componentes conectados por una tubería. Los datos fluyen de izquierda a derecha a lo largo de las tuberías. Pipeline Pilot puede condensar visualmente una serie de manipulaciones de datos que involucran muchos componentes.
Pipeline Pilot presenta una serie de complementos llamados "colecciones". Las colecciones son grupos de funciones especializadas, como procesar información genética o analizar polímeros, que se ofrecen a los usuarios finales por una tarifa de licencia adicional. Actualmente, existen varias de estas colecciones. [7]
Pipeline Pilot se utiliza a menudo cuando se procesan uno o más conjuntos de datos grandes (1TB+) y/o complejos. Al principio de su desarrollo, Pipeline Pilot creó un lenguaje de secuencias de comandos llamado "PilotScript" que permitía a los usuarios finales escribir secuencias de comandos de programación básicas que podrían incorporarse a un protocolo de Pipeline Pilot. Las versiones posteriores ampliaron el soporte para una variedad de lenguajes de programación, incluidos Python , .NET , Matlab , Perl , SQL , Java , VBScript y R. [8] El producto admite varias API para diferentes lenguajes de programación que se pueden ejecutar sin la interfaz gráfica de usuario del programa.
La sintaxis de PilotScript se basa en PLSQL . Se puede utilizar en componentes como el Manipulador personalizado (PilotScript) o el Filtro personalizado (PilotScript) . Como ejemplo, la siguiente secuencia de comandos se puede utilizar para agregar una propiedad denominada "Hola" a cada registro que pasa por un componente de secuencia de comandos personalizado en un protocolo Pipeline Pilot. El valor de la propiedad es la cadena "¡Hola mundo!".
Hola := "¡Hola mundo!" ;