En el procesamiento de transacciones , bases de datos y redes informáticas , el protocolo de confirmación en dos fases ( 2PC , tupac ) es un tipo de protocolo de confirmación atómica (ACP). Es un algoritmo distribuido que coordina todos los procesos que participan en una transacción atómica distribuida sobre si confirmar o abortar (revertir) la transacción. Este protocolo (un tipo especializado de protocolo de consenso ) logra su objetivo incluso en muchos casos de falla temporal del sistema (que involucran fallas de proceso, nodo de red, comunicación, etc.) y, por lo tanto, se usa ampliamente. [1] [2] [3] Sin embargo, no es resistente a todas las configuraciones de falla posibles y, en casos raros, se necesita una intervención manual para remediar un resultado. Para dar cabida a la recuperación de la falla (automática en la mayoría de los casos), los participantes del protocolo utilizan el registro de los estados del protocolo. Los registros de registro, que normalmente son lentos de generar pero sobreviven a las fallas, son utilizados por los procedimientos de recuperación del protocolo . Existen muchas variantes de protocolo que difieren principalmente en las estrategias de registro y los mecanismos de recuperación. Aunque generalmente están pensados para usarse con poca frecuencia, los procedimientos de recuperación componen una parte sustancial del protocolo, debido a los muchos escenarios de falla posibles que el protocolo debe considerar y respaldar.
En una "ejecución normal" de cualquier transacción distribuida (es decir, cuando no se produce ningún fallo, que suele ser la situación más frecuente), el protocolo consta de dos fases:
El protocolo de confirmación de dos fases (2PC) no debe confundirse con el protocolo de bloqueo de dos fases (2PL), un protocolo de control de concurrencia .
El protocolo funciona de la siguiente manera: un nodo es el coordinador designado, que es el sitio maestro, y el resto de los nodos de la red son los participantes designados. El protocolo supone que:
El último supuesto no es demasiado restrictivo, ya que la comunicación de la red normalmente se puede redireccionar. Los dos primeros supuestos son mucho más sólidos: si un nodo se destruye por completo, se pueden perder los datos.
El protocolo lo inicia el coordinador una vez que se ha alcanzado el último paso de la transacción. Los participantes responden con un mensaje de aceptación o de cancelación, dependiendo de si la transacción se ha procesado correctamente en el participante.
Si el coordinador recibió un mensaje de acuerdo de todos los participantes durante la fase de solicitud de confirmación:
Si algún participante vota No durante la fase de solicitud de confirmación (o expira el tiempo de espera del coordinador):
Coordinador Participante CONSULTA PARA COMPROBAR --------------------------------> VOTA SI/NO prepara*/aborta* <-------------------------------confirmar*/abortar* CONFIRMACIÓN/ROLLBACK --------------------------------> RECONOCIMIENTO commit*/abort* <-------------------------------- fin
Un * junto al tipo de registro significa que el registro está forzado a un almacenamiento estable. [4]
En muchos casos, el protocolo 2PC se distribuye en una red informática. Se distribuye fácilmente implementando múltiples componentes 2PC dedicados similares entre sí, normalmente denominados gestores de transacciones (TM; también denominados agentes 2PC o monitores de procesamiento de transacciones), que llevan a cabo la ejecución del protocolo para cada transacción (por ejemplo, X/Open XA de The Open Group ). Las bases de datos implicadas en una transacción distribuida, los participantes, tanto el coordinador como los participantes, se registran para cerrar los TM (que normalmente residen en los mismos nodos de red respectivos que los participantes) para finalizar esa transacción utilizando 2PC. Cada transacción distribuida tiene un conjunto ad hoc de TM, los TM en los que se registran los participantes de la transacción. Existe un líder, el TM coordinador, para cada transacción que coordina el 2PC para ella, normalmente el TM de la base de datos coordinadora. Sin embargo, el papel de coordinador se puede transferir a otro TM por razones de rendimiento o fiabilidad. En lugar de intercambiar mensajes 2PC entre ellos, los participantes intercambian los mensajes con sus respectivos TM. Los TM pertinentes se comunican entre sí para ejecutar el esquema de protocolo 2PC mencionado anteriormente, "representando" a los participantes respectivos, para finalizar esa transacción. Con esta arquitectura, el protocolo está completamente distribuido (no necesita ningún componente de procesamiento central ni estructura de datos) y se escala con la cantidad de nodos de red (tamaño de la red) de manera efectiva.
Esta arquitectura común también es efectiva para la distribución de otros protocolos de compromiso atómico además de 2PC, ya que todos estos protocolos utilizan el mismo mecanismo de votación y propagación de resultados a los participantes del protocolo. [1] [2]
Se han realizado investigaciones de bases de datos sobre formas de obtener la mayoría de los beneficios del protocolo de confirmación de dos fases y al mismo tiempo reducir los costos mediante optimizaciones de protocolo [1] [2] [3] y ahorros en las operaciones de protocolo bajo ciertos supuestos de comportamiento del sistema.
El aborto presunto o el compromiso presunto son optimizaciones comunes de este tipo. [2] [3] [5] Una suposición sobre el resultado de las transacciones, ya sea de compromiso o de aborto, puede salvar tanto los mensajes como las operaciones de registro de los participantes durante la ejecución del protocolo 2PC. Por ejemplo, cuando se presume el aborto, si durante la recuperación del sistema de un fallo no se encuentra evidencia registrada de la confirmación de alguna transacción por el procedimiento de recuperación, entonces se supone que la transacción ha sido abortada y se actúa en consecuencia. Esto significa que no importa si se registran los abortos en absoluto, y dicho registro se puede salvar bajo este supuesto. Normalmente se paga una penalización de operaciones adicionales durante la recuperación de un fallo, dependiendo del tipo de optimización. Por lo tanto, la mejor variante de optimización, si la hay, se elige de acuerdo con las estadísticas de fallos y resultados de la transacción.
El protocolo Tree 2PC [2] (también llamado Nested 2PC o Recursive 2PC) es una variante común de 2PC en una red informática , que utiliza mejor la infraestructura de comunicación subyacente. Los participantes en una transacción distribuida se invocan típicamente en un orden que define una estructura de árbol, el árbol de invocación, donde los participantes son los nodos y los bordes son las invocaciones (enlaces de comunicación). El mismo árbol se utiliza comúnmente para completar la transacción mediante un protocolo 2PC, pero también se puede utilizar otro árbol de comunicación para esto, en principio. En un árbol 2PC el coordinador se considera la raíz ("parte superior") de un árbol de comunicación (árbol invertido), mientras que los participantes son los otros nodos. El coordinador puede ser el nodo que originó la transacción (invoca recursivamente (transitivamente) a los otros participantes), pero también otro nodo en el mismo árbol puede asumir el papel de coordinador en su lugar. Los mensajes 2PC del coordinador se propagan "hacia abajo" del árbol, mientras que los mensajes al coordinador son "recogidos" por un participante de todos los participantes que se encuentran debajo de él, antes de enviar el mensaje apropiado "hacia arriba" del árbol (excepto un mensaje de aborto, que se propaga "hacia arriba" inmediatamente después de recibirlo o si el participante actual inicia el aborto).
El protocolo de confirmación dinámica en dos fases (Dynamic two-phase commit, D2PC) [2] [6] es una variante de Tree 2PC sin un coordinador predeterminado. Incluye varias optimizaciones que se han propuesto anteriormente. Los mensajes de acuerdo (votos de Sí) comienzan a propagarse desde todas las hojas, cada hoja cuando completa sus tareas en nombre de la transacción (está lista). Un nodo intermedio (que no es una hoja) envía un mensaje de listo cuando se envía un mensaje de acuerdo al último nodo vecino (único) del cual aún no se ha recibido el mensaje de acuerdo. El coordinador se determina dinámicamente haciendo que los mensajes de acuerdo se transmitan por el árbol de transacciones, en el lugar donde colisionan. Colisionan en un nodo del árbol de transacciones, para ser el coordinador, o en un borde del árbol. En el último caso, uno de los nodos de los dos bordes se elige como coordinador (cualquier nodo). D2PC es óptimo en términos de tiempo (entre todas las instancias de un árbol de transacciones específico y cualquier implementación específica del protocolo Tree 2PC; todas las instancias tienen el mismo árbol; cada instancia tiene un nodo diferente como coordinador): al elegir un coordinador óptimo, D2PC compromete tanto al coordinador como a cada participante en el mínimo tiempo posible, lo que permite la liberación más temprana posible de los recursos bloqueados en cada participante de la transacción (nodo del árbol).