Situación del cliente
Aseguradora española especializada en seguros de automoción y hogar —con productos distribuidos principalmente a través de canales bancarios y de concesionarios— necesitaba renovar integralmente su modelo de operaciones cloud. La compañía había completado su migración inicial a Azure pero operaba con un modelo de gestión tradicional: monitorización reactiva, incidentes gestionados manualmente por técnicos N1 y N2, y procesos de cumplimiento DORA documentados de forma estática que requerían actualización manual continua.
La dirección TI quería dar el salto hacia un modelo de operación inteligente (SmartOps) que aprovechara la inteligencia artificial para el triaje automático de incidentes, asistiera a los técnicos de primer nivel con un copiloto de IA y garantizara el cumplimiento DORA de forma continua y automatizada, sin el coste operativo que implica la preparación manual de evidencias para auditorías.
Retos
- Diseñar el Journey to Cloud completo: Landing Zone · Azure ARC para la gestión de los sistemas legacy que permanecen on-premise · AKS como plataforma de contenedores para las nuevas aplicaciones cloud-native de la aseguradora
- Implementar el triaje automático de incidentes con IA que clasificara y priorizara los alertas antes de escalarlos a los técnicos de operaciones, reduciendo el MTTA (Mean Time To Acknowledge) un 90% respecto al modelo manual
- Desarrollar el copiloto para técnicos N1 que les asistiera en el diagnóstico y resolución de los incidentes más frecuentes, reduciendo la dependencia de escalados a N2 y el tiempo de resolución para los incidentes conocidos
- Diseñar el módulo de compliance DORA automático que generara las evidencias requeridas por el regulador de forma continua, sin requerir trabajo adicional del equipo TI para preparar la documentación de cada auditoría
- Planificar la transición de operaciones desde el modelo actual al SmartOps sin interrupción de los sistemas core de negocio (gestión de pólizas, emisión, siniestros), que operan 24x7 con servicios a asegurados y canales de distribución
Solución en implantación
- Journey to Cloud completo: Landing Zone Azure con Management Groups y políticas de seguridad para los entornos de producción de seguros, Azure ARC para la gestión unificada de los servidores legacy que permanecen on-premise durante la transición, y AKS como plataforma de contenedores para las nuevas aplicaciones cloud-native con GitOps (Flux) para gestión del estado de los clusters
- Triaje automático de incidentes con IA: modelo de ML entrenado con el histórico de incidentes de la aseguradora para clasificación automática por tipo, criticidad y sistema afectado, integrado en el pipeline de alertas de Azure Monitor, con enrichment automático de los tickets en ServiceNow antes de llegar al técnico de N1
- Copiloto para técnicos N1: asistente basado en Azure OpenAI Service con acceso a la base de conocimiento de la aseguradora (runbooks, procedimientos, histórico de resoluciones), que proporciona al técnico los pasos de diagnóstico y resolución recomendados para cada tipo de incidente en tiempo real
- Compliance DORA automático: motor de recolección continua de evidencias DORA (logs de cambios, registros de incidentes, informes de disponibilidad, resultados de pruebas de continuidad) con generación automática de los informes requeridos por el regulador en los formatos especificados por la DGSFP
- Transición de operaciones sin interrupción: plan de migración operativa con periodo de cogestión entre el modelo actual y SmartOps, formación del equipo en el nuevo modelo de trabajo con IA, y protocolos de fallback al modo manual para cualquier escenario donde el triaje automático presente incertidumbre
Resultados en curso
Patrón de arquitectura
Plataforma SmartOps para aseguradora especializada: motor de triaje automático de incidentes con Azure OpenAI que clasifica, prioriza y sugiere causa raíz (reducción del 90% en MTTA), cumplimiento DORA continuo con ICT Risk Register automático generado desde Defender for Cloud, notificación de incidentes significativos a DGSFP en 24h via Logic Apps y evidencias de auditoría generadas automáticamente desde Azure Policy. Disponibilidad target del 99,99% para sistemas core de seguros.
- El triaje con IA requiere datos históricos de incidentes etiquetados — Azure OpenAI clasifica incidentes basándose en patrones del pasado. Sin un histórico de al menos 12 meses de incidentes correctamente etiquetados por el equipo de operaciones, el modelo clasifica con baja precisión y pierde la confianza del equipo.
- Graduar la automatización: sugerir antes de actuar — en seguros con sistemas core de alto impacto, el motor de triaje debe empezar sugiriendo acciones al operador humano (nivel 1), luego ejecutar acciones de bajo riesgo automáticamente (nivel 2), y solo después automatizar acciones de remediación compleja (nivel 3). Saltarse este proceso destruye la adopción del equipo.
- DORA compliance continuo, no como proyecto de auditoría anual — el ICT Risk Register de DORA tiene que estar actualizado en tiempo real, no solo en época de auditoría. Azure Policy como fuente de verdad con exportación automática al registro es la única forma de mantener la evidencia actualizada sin trabajo manual.
- Notificación de incidentes a DGSFP: automatizar el proceso, no solo el contenido — el plazo de 24h de DORA para incidentes significativos en seguros requiere que el proceso de notificación (identificación del incidente, clasificación como significativo, generación del informe, envío) esté 100% automatizado. La cadena manual falla bajo presión operativa.
- 99,99% disponibilidad requiere eliminación de single points of failure en todos los niveles — en seguros especializados, los sistemas de gestión de riesgos y suscripción son críticos. El 99,99% implica máximo 52 minutos de downtime al año, lo que requiere AKS multi-AZ, Azure SQL Business Critical y ningún componente sin redundancia activa.
- Feedback loop del equipo de operaciones para mejorar el modelo de triaje — cada clasificación incorrecta del motor IA debe retroalimentar el modelo. Sin este proceso de mejora continua, el modelo se degrada con el tiempo a medida que cambia el perfil de incidentes de la aseguradora.