Situación del cliente
Una de las mayores aseguradoras del mundo, con presencia en más de 40 países y más de 400 microservicios que soportaban sus operaciones de seguros de vida, salud y no-vida, necesitaba modernizar su plataforma tecnológica en América Latina. Las 12 filiales LATAM operaban sobre infraestructuras heterogéneas con distintos proveedores de nube y niveles de madurez tecnológica muy dispares, lo que generaba brechas de seguridad y dificultades para aplicar los estándares corporativos globales.
La dirección tecnológica global quería unificar la plataforma de contenedores en Azure Kubernetes Service con un modelo de infraestructura como código (Terraform), seguridad de contenedores homogénea (Prisma Cloud) y capacidades de Disaster Recovery que cumplieran los objetivos de RTO y RPO exigidos por los reguladores de seguros de los distintos países LATAM.
Retos
- Diseñar la arquitectura baseline AKS multi-región que sirviera de plataforma estándar para las 12 filiales LATAM, adaptable a las particularidades regulatorias de cada mercado (reguladores de seguros en México, Brasil, Colombia, Argentina...)
- Codificar toda la infraestructura en Terraform para garantizar la reproducibilidad del despliegue en cada filial y facilitar las actualizaciones centralizadas del módulo base sin romper las personalizaciones locales
- Integrar Prisma Cloud como plataforma de seguridad de contenedores en todos los clusters, estableciendo políticas de seguridad uniformes que se aplicaran desde el build hasta el runtime en producción
- Diseñar el plan de Disaster Recovery multi-región con RTO menor de 4 horas para los sistemas de emisión de pólizas y gestión de siniestros, que los reguladores de seguros de los principales mercados LATAM exigían contractualmente
- Migrar los 400+ microservicios existentes sin interrupción de las operaciones de venta y gestión de siniestros, considerando que en algunos mercados los SLAs de respuesta a clientes tenían implicaciones regulatorias directas
Solución implementada
- Plataforma AMA2Cloud (AKS multi-región): arquitectura baseline de AKS con node pools diferenciados por tipo de carga (seguros críticos, analytics, servicios de cliente), autoscaling horizontal y vertical, y Azure Policy para governance centralizada de todos los clusters desde un único control plane corporativo
- Infraestructura como código con Terraform: módulo Terraform corporativo para el cluster AKS base, con capacidad de override de parámetros específicos por filial (región, tamaño de nodos, configuración de red) manteniendo la coherencia del módulo central actualizable sin fork
- Seguridad de contenedores con Prisma Cloud: integración de Prisma Cloud en todas las fases del ciclo de vida (escaneo de imágenes en pipeline CI, protección en runtime, compliance scanning contra CIS Benchmarks para Kubernetes), con alertas centralizadas al SOC corporativo global
- Disaster Recovery multi-región: arquitectura activo-pasivo con replicación de datos entre regiones Azure en cada mercado LATAM, Azure Traffic Manager para failover automático y procedimientos de DR probados trimestralmente con evidencias para los reguladores de seguros
- Migración sin interrupción: estrategia de migración usando Blue-Green deployments para cada grupo de microservicios, con periodo de coexistencia entre la plataforma legacy y AKS hasta que el 100% del tráfico se validaba en la nueva plataforma, y capacidad de rollback automatizado en menos de 15 minutos
Ventajas para el cliente
Patrón de arquitectura
Plataforma AKS multi-región para aseguradora global: cluster primario en West Europe con 400+ microservicios en Istio service mesh con mTLS, cluster DR en North Europe en modo standby con scale-up automático en failover (RTO <4h certificado), Flux GitOps como fuente única de verdad para las 12 filiales LATAM desplegadas sobre la misma plataforma con Azure Front Door para enrutamiento inteligente.
- RTO <4h en AKS requiere datos replicados, no solo infraestructura replicada — el cluster DR vacío arranca en minutos; los datos de 400 microservicios tardaban horas en replicarse en el diseño inicial. La solución fue Cosmos DB multi-region write + Azure SQL geo-replication con RPO de segundos.
- Istio mTLS entre microservicios como requisito de cumplimiento DGSFP — en seguros, la comunicación entre microservicios que manejan datos de pólizas y siniestros debe estar cifrada incluso dentro del cluster. Istio en modo strict mTLS garantiza esto sin cambios en el código de los servicios.
- Flux GitOps como única forma de desplegar en 12 filiales — con 12 filiales LATAM usando la misma plataforma, los despliegues manuales o ad-hoc crean divergencia de versiones que es imposible de auditar. El GitOps es el control de auditoría técnica que los reguladores locales aceptan.
- Node pools separados por tipo de carga — los microservicios de pricing actuarial tienen picos de CPU predecibles; los de portal web, picos de memoria. Node pools dedicados con autoscaler independiente evitan que los picos de un tipo afecten la disponibilidad del otro.
- Azure Front Door con reglas de enrutamiento por país para regulación LATAM — el tráfico de clientes de seguros de Colombia no puede cruzar a servidores de otro país. Front Door con geolocation rules garantiza el enrutamiento correcto con failover controlado.
- Prueba de DR real cada 6 meses, no solo tabletop exercise — en este proyecto, la primera prueba real de failover al DR reveló que 3 microservicios tenían dependencias hardcodeadas a endpoints de la región primaria. Solo las pruebas reales descubren estos fallos de diseño.