Failovers

¿Qué significa?

La conmutación por error es la capacidad de cambiar automáticamente y sin problemas a un sistema de respaldo confiable. Cuando un componente o sistema principal falla, el modo operativo en espera o la redundancia deben lograr la conmutación por error y disminuir o eliminar el impacto negativo en los usuarios.

Para lograr la redundancia en caso de falla anormal o finalización de una versión anteriormente activa, una base de datos, sistema, servidor u otro componente de hardware o red en espera siempre debe estar listo para entrar en acción automáticamente. En otras palabras, todas las técnicas de copia de seguridad, incluidos los sistemas de servidores informáticos en espera, deben ser inmunes a los fallos, ya que la conmutación por error es fundamental para la recuperación ante desastres (DR).

 

¿En qué consiste?

La conmutación por error, o failover, es un modo de funcionamiento de respaldo en el que las funciones de un componente de un sistema primario, como el procesador, un servidor, la red o una base de datos, por ejemplo, son asumidos por componentes de un sistema secundario cuando el primero no está disponible, ya sea debido a una falla o por el tiempo de mantenimiento programado.

Se utiliza para hacer los sistemas más tolerantes a fallos, y suele ser una parte integral de los sistemas de misión crítica que deben estar constantemente disponibles.

El objetivo principal de failover es permitir que procesos que normalmente se ejecutan en un nodo sean transferidos a otro, en caso de que el principal que brinda los servicios falle. Este método, entre otras funciones, también permite realizar mantenimientos y cambios de hardware, sin afectar los servicios específicos que se brindan al usuario final.

 

¿Cómo es el procedimiento?

La automatización de conmutación por error en los servidores incluye condiciones de pulso o latido. Es decir, los cables Heartbeat conectan dos servidores o varios servidores en una red con el servidor principal siempre activo. Mientras el latido del corazón continúe o perciba el pulso, el servidor secundario simplemente descansa.

Sin embargo, si el servidor secundario percibe algún cambio en el pulso del servidor de conmutación por error principal, iniciará sus instancias y se hará cargo de las operaciones del servidor principal. También enviará un mensaje al técnico o al centro de datos solicitando que vuelvan a poner en línea el servidor principal. Algunos sistemas, llamados configuración automática con aprobación manual, simplemente alertan al técnico o al centro de datos, solicitando que el cambio en el servidor se realice manualmente.

 

¿Cómo funciona?

Activo-activo y activo-pasivo o activo-en espera son las configuraciones más comunes para alta disponibilidad (HA). Cada técnica de implementación logra la conmutación por error de una manera diferente, aunque ambas mejoran la confiabilidad.

Por lo general, al menos dos nodos que ejecutan activa y simultáneamente el mismo tipo de servicio conforman un clúster de alta disponibilidad activo-activo. El clúster activo-activo distribuye las cargas de trabajo entre todos los nodos de manera más uniforme, lo que evita que un solo nodo se sobrecargue y logra el equilibrio de carga. Y debido a que quedan más nodos disponibles, el rendimiento y los tiempos de respuesta mejoran. Para garantizar que el clúster HA funcione sin problemas y logre la redundancia, las configuraciones y los ajustes individuales de los nodos deben ser idénticos.

En cambio, en un clúster activo-pasivo, aunque debe haber al menos dos nodos, no todos están activos. En un sistema de dos nodos con el primer nodo activo, el segundo nodo permanecerá pasivo o en espera como servidor de conmutación por error.

En este modo operativo en espera, puede permanecer listo en caso de que el servidor primario activo deje de funcionar para servir como respaldo. Sin embargo, a menos que haya una falla, los clientes solo se conectan al servidor activo.

Al igual que en el clúster activo-activo, ambos servidores en el clúster activo-en espera deben configurarse con las mismas configuraciones. De esta forma, los clientes no pueden percibir ningún cambio en el servicio, incluso si el enrutador o el servidor de conmutación por error deben asumir el control.

Claramente, en un clúster activo-en espera, aunque el nodo en espera siempre se está ejecutando, la utilización real se aproxima a cero.

En un clúster activo-activo, la utilización de ambos nodos se acerca a la mitad, aunque cada nodo puede manejar la carga completa por sí solo. Sin embargo, esto también significa que la falla del nodo puede hacer que el rendimiento se degrade si un nodo de configuración activo-activo maneja más de la mitad de la carga de manera consistente.

El tiempo de interrupción durante una falla es prácticamente nulo con una configuración HA activa-activa, porque ambas rutas están activas. Con una configuración activo-pasivo, el tiempo de interrupción tiene el potencial de ser mayor, ya que el sistema debe cambiar de un nodo al otro, lo que requiere tiempo.

 

Dos tipos de conmutación por error

Existen dos tipos de conmutación por error: failover y switchover, que en la práctica son esencialmente la misma operación, excepto que la primera es automática y generalmente funciona sin previo aviso, mientras que la segunda requiere la intervención humana.

En sistemas que dan soporte a servidores o redes que requieren de una disponibilidad casi continua y un alto grado de confiabilidad, se emplea una capacidad de conmutación por error de forma automática.

La automatización de la conmutación por error generalmente utiliza un sistema de «latido» que conecta dos servidores, ya sea mediante un cable separado (por ejemplo, puertos serie RS-232 / cable) o una conexión de red.

Mientras un «pulso» o «latido» regular continúe entre el servidor principal y el segundo servidor, este último no pondrá sus sistemas en línea. También puede haber un tercer servidor de «piezas de repuesto» que tenga componentes de respaldo en ejecución para el cambio «en caliente» y con ello evitar el tiempo de inactividad.

El segundo servidor asume el trabajo del primero en cuanto detecta una alteración en el «latido» del primero. Algunos sistemas, incluso, tienen la capacidad de enviar una notificación de conmutación por error.

Otros sistemas, intencionalmente, no realizan una conmutación por error de forma totalmente automática, sino que requieren intervención humana. Esta configuración «automatizada con aprobación manual» se ejecuta automáticamente una vez que un humano ha aprobado la conmutación por error.

El uso del software de virtualización ha permitido que las prácticas de conmutación por error se vuelvan menos dependientes del hardware físico a través del proceso denominado migración, en el que una máquina virtual en ejecución se mueve de un host físico a otro, con poca o ninguna interrupción en el servicio.

 

¿Qué es un clúster de conmutación por error?

Un clúster de conmutación por error es un conjunto de servidores informáticos que proporcionan tolerancia a fallos (FT), disponibilidad continua (CA) o alta disponibilidad (HA) juntos. Las configuraciones de red de clúster de conmutación por error pueden usar máquinas virtuales (VM), solo hardware físico o ambos.

Si uno de los servidores en un clúster de conmutación por error deja de funcionar, esto desencadena el proceso de conmutación por error. Enviar instantáneamente la carga de trabajo del componente fallido a otro nodo en el clúster, esto evita el tiempo de inactividad.

Proporcionar HA o CA para aplicaciones y servicios es el objetivo principal de un clúster de conmutación por error. También conocidos como clústeres tolerantes a fallas (FT), los clústeres de CA eliminan el tiempo de inactividad cuando fallan los sistemas principal o principal, lo que permite a los usuarios finales seguir usando aplicaciones y servicios sin interrupciones ni tiempos de espera.

Por el contrario, a pesar de una posible interrupción breve del servicio, los clústeres de alta disponibilidad ofrecen un tiempo de inactividad mínimo, recuperación automática y ausencia de pérdida de datos. El proceso de recuperación en los clústeres de alta disponibilidad se puede configurar mediante las herramientas del administrador de clústeres de conmutación por error, que se incluyen como parte de la mayoría de las soluciones de clústeres de conmutación por error.

En un sentido más amplio, un clúster son dos o más nodos o servidores, generalmente conectados tanto físicamente con cables como mediante software. Algunas implementaciones de conmutación por error incluyen tecnologías adicionales de agrupación en clústeres, como procesamiento paralelo o simultáneo, equilibrio de carga y soluciones de almacenamiento en la nube.

La conmutación por error de Internet es esencialmente una conexión a Internet redundante o secundaria que se utiliza como enlace de conmutación por error en caso de falla. Esto se puede considerar como otra pieza de la capacidad de conmutación por error en los servidores.