Disaster Recovery as a Service sobre VMware Cloud on AWS para Empresa Industrial

Situación del cliente

Empresa de ingeniería e industria con presencia en múltiples plantas de fabricación en Europa operaba su plan de continuidad de negocio sobre un CPD de DR on-premise propio en un segundo datacenter. La solución acumulaba varios problemas estructurales: hardware con más de cinco años de antigüedad próximo a fin de soporte, licencias de VMware Site Recovery Manager con costes de renovación crecientes, un RTO real que excedía las 8 horas en los últimos ejercicios de prueba realizados, y un TCO del DR equivalente al 30% del coste total de su infraestructura de producción.

La dirección de TI evaluó tres alternativas para reemplazar el DR on-premise: un segundo CPD propio (descartado por CAPEX y plazos), DRaaS gestionado por un tercero sobre infraestructura propia (descartado por lock-in y SLA insuficiente), y DRaaS sobre VMware Cloud on AWS (VMC on AWS), que permitía reutilizar las competencias VMware del equipo interno, eliminar la inversión en hardware de DR y alcanzar un RTO garantizado inferior a 2 horas.

Retos

Diseñar la arquitectura del SDDC (Software-Defined Data Center) en VMware Cloud on AWS con el sizing de instancias i3.metal adecuado para absorber la carga de producción en el peor escenario de failover total, sin sobredimensionar el coste del DR
Configurar VMware HCX para la replicación continua de las VMs de producción al SDDC de DR en AWS sin agentes adicionales, manteniendo el RPO objetivo de 15 minutos para los sistemas críticos de fabricación y ERP
Diseñar el modelo de red en el SDDC de DR —VLANs replicadas, direccionamiento IP preservado— para que las VMs arrancadas en AWS funcionen sin reconfiguración de aplicaciones ni actualizaciones en los clientes que las consumen
Elaborar el análisis comparativo de costes (TCO) entre la solución on-premise actual y el modelo DRaaS sobre VMC on AWS con tres escenarios: on-demand (pago por uso solo en failover), reserved 1 año y reserved 3 años, para fundamentar la decisión ante el Comité de Dirección
Diseñar el plan de pruebas de DR anuales que permitiera verificar el RTO sin impactar la producción, aprovechando la capacidad de VMC on AWS de levantar el entorno de DR en una VLAN aislada para pruebas sin interferir con la red de producción replicada

Solución

SDDC VMware Cloud on AWS: diseño del Software-Defined Data Center en AWS con 3 instancias i3.metal en configuración inicial (modo piloto light) y capacidad de escalar a 10 nodos en el momento del failover mediante Elastic DRS, eliminando el sobredimensionamiento del coste del DR en estado steady-state y pagando por el tamaño real solo durante la activación
Replicación con VMware HCX: configuración de HCX Advanced para replicación de las 120 VMs de producción crítica (ERP, MES, SCADA y sistemas de gestión de planta) con RPO de 15 minutos, sin necesidad de agentes en las VMs ni cambios en las aplicaciones, aprovechando la integración nativa entre el vCenter on-premise y el vCenter del SDDC en AWS
Modelo de red extendida: extensión de red L2 mediante HCX Network Extension para preservar el direccionamiento IP de las VMs en el failover, con BGP hacia AWS Transit Gateway para el enrutamiento del tráfico de clientes hacia el SDDC, y Mobility Optimized Networking para evitar el hairpin de tráfico entre VMs arrancadas en AWS
Análisis comparativo TCO a 3 años: comparativa entre el coste actual del DR on-premise (hardware, licencias VMware, coste del CPD secundario, personal) frente a los tres modelos de VMC on AWS, con el modelo on-demand para la capacidad base y reserved 1 año para los nodos permanentes del piloto light, resultado: reducción del TCO del 40% en el escenario más conservador
Plan de pruebas de DR sin impacto en producción: procedimiento de prueba anual con Network Extension aislada que levanta el entorno de DR en una VLAN de test sin conectividad con producción, permitiendo verificar el arranque de todas las VMs críticas y medir el RTO real sin afectar a los sistemas de fabricación en producción

Resultados

−40% TCO del DRreducción del coste total de propiedad del Disaster Recovery respecto a la solución on-premise equivalente, eliminando CAPEX de hardware, licencias VMware SRM y coste del segundo CPD, a cambio de un modelo OPEX predecible sobre VMC on AWS

RTO < 2 horastiempo de recuperación garantizado para la totalidad de los sistemas críticos de fabricación y ERP, frente a las más de 8 horas de los últimos ejercicios de DR en el CPD on-premise, habilitado por el failover automatizado de VMware Site Recovery en el SDDC de AWS

RPO 15 minutosobjetivo de punto de recuperación de 15 minutos para las 120 VMs críticas mediante replicación continua con VMware HCX sin agentes adicionales ni cambios en las aplicaciones de fabricación y gestión

Pruebas sin impactoplan de pruebas anuales del DR verificadas sin impacto en producción mediante VLAN aislada en el SDDC de AWS, eliminando el riesgo de las pruebas en el CPD on-premise que históricamente generaban incidencias en los sistemas de planta

Patrón de arquitectura

// ARCH 36 · AWS · DRaaS · VMware Cloud on AWS

DRaaS Industrial — VMware Cloud on AWS + HCX + Elastic DRS

DRaaS sobre VMware Cloud on AWS para empresa industrial: SDDC con 3 instancias i3.metal en piloto light con Elastic DRS para escalar a 10 nodos en failover, replicación continua de 120 VMs críticas (ERP, MES, SCADA) mediante VMware HCX con RPO de 15 minutos, Network Extension L2 para preservar el direccionamiento IP en el failover, failover automatizado con VMware Site Recovery, y plan de pruebas anuales en VLAN aislada sin impacto en producción. Reducción del TCO del DR un 40% frente a la solución on-premise.

VMware Cloud on AWSVMware HCXVMware Site RecoveryAWS Transit GatewayAWS Direct ConnectElastic DRS

// Consideraciones de arquitectura · DRaaS VMware on AWS WAF

El piloto light de 3 nodos i3.metal no es el tamaño del DR, es el tamaño del estado idle — VMware Cloud on AWS con Elastic DRS permite tener 3 nodos en estado steady (piloto light) pagando el coste mínimo, y escalar automáticamente a los nodos necesarios para absorber la carga de producción en el momento del failover. Si se dimensiona el SDDC para producción completa en estado idle, el coste del DR iguala o supera al on-premise.
VMware HCX no requiere refactorización pero sí compatibilidad de versión vSphere — antes de comprometer un diseño HCX, verificar que la versión de vSphere on-premise es compatible con HCX Cloud instalado en el SDDC. Versiones antiguas de vSphere (anteriores a 6.5) pueden requerir actualizaciones que no estaban previstas en el proyecto y que generan riesgo en los sistemas de fabricación.
La preservación de IPs en el failover (HCX Network Extension) tiene un coste de latencia — la extensión L2 entre el site on-premise y el SDDC en AWS implica que el tráfico entre VMs arrancadas en AWS que se comunican con sistemas que aún están on-premise cruza la extensión L2. Mobility Optimized Networking (MON) resuelve este hairpin, pero requiere configuración explícita por perfil de red; sin MON, la latencia entre VMs en AWS puede ser mayor de lo esperado.
Direct Connect es imprescindible para que HCX funcione con RPO objetivo — replicar 120 VMs con RPO de 15 minutos requiere un ancho de banda de replicación consistente. Sobre una conexión Internet con jitter y pérdida de paquetes, HCX puede incumplir el RPO en picos de cambio de datos. Direct Connect con 1 Gbps dedicado garantiza la consistencia de la replicación y el RPO comprometido.
El análisis TCO debe incluir el coste del failover en producción, no solo el coste idle — el error más común en el análisis de costes de VMC on AWS es comparar solo el coste del piloto light frente al DR on-premise. El análisis correcto incluye el coste del failover completo (10 nodos × precio on-demand durante la duración del incidente), el Direct Connect y los backups en S3. Solo con el coste total es posible justificar el proyecto ante el Comité de Dirección.
Las pruebas de DR en VLAN aislada son la diferencia entre un DR en papel y un DR real — la capacidad de levantar el entorno de DR en una VLAN de test sin conectividad con producción permite hacer pruebas reales con el RTO objetivo sin riesgo. Muchas organizaciones industriales no prueban el DR por miedo al impacto en producción; VMC on AWS elimina esa excusa y debe incluirse como parte del servicio DRaaS con prueba anual obligatoria.

FiabilidadOptimización de costesSeguridadExcelencia Operacional