Situación del cliente
Banco de negocios especializado en financiación de proyectos de infraestructura, capital riesgo y deuda corporativa necesitaba modernizar su arquitectura de datos para soportar las crecientes demandas analíticas del negocio. El banco operaba con un ecosistema de datos fragmentado: múltiples fuentes de datos heterogéneas (core bancario, sistemas de gestión de cartera, Bloomberg, Reuters, fuentes regulatorias), transformaciones desarrolladas en SQL ad hoc sin gobierno ni documentación, y herramientas de reporting desconectadas que generaban inconsistencias en los datos presentados a la dirección y a los equipos de riesgo.
La dirección TI y el área de datos del banco establecieron la Data Landing Zone sobre Azure como el primer paso de un programa plurianual de modernización de datos, con el objetivo de sentar las bases arquitectónicas que habilitaran las iniciativas de analítica avanzada e IA previstas en su plan estratégico. El proyecto se estructuró como un assessment de dos semanas seguido del diseño de la arquitectura target y los entregables que guiarían la implantación.
Retos
- Realizar en dos semanas un assessment completo del estado actual de la arquitectura de datos del banco —inventario de fuentes, patrones de ingestión, transformaciones existentes, calidad de datos y madurez del gobierno— con suficiente profundidad para diseñar una arquitectura target realista y priorizarla correctamente
- Diseñar el modelo de ingestión y transformación con DBT y Azure Data Factory que reemplazara el SQL ad hoc existente con un modelo de transformación documentado, versionado y testable, preservando la lógica de negocio validada por el equipo de datos del banco
- Evaluar Azure Microsoft Fabric como plataforma analítica target —frente a alternativas como Azure Synapse Analytics y Databricks— analizando su encaje con el volumen de datos del banco, las capacidades de gobierno de datos requeridas por el regulador y el modelo de licencias frente al coste actual
- Diseñar el modelo de gobierno de datos de la Data Landing Zone conforme a los requisitos regulatorios aplicables al banco (BCBS 239 para la gestión de datos de riesgo, GDPR para datos de clientes y DORA para la resiliencia operacional de la plataforma de datos)
- Establecer la hoja de ruta de implementación de la arquitectura target con las fases, dependencias y criterios de priorización que permitieran al banco ejecutar el programa plurianual de modernización de datos con sus propios recursos internos, después de la fase de diseño con el consultor externo
Solución en diseño
- Assessment 2 semanas: semana 1 dedicada al análisis del estado actual (inventario de fuentes de datos, entrevistas con los equipos de riesgo, finanzas y operaciones, análisis de calidad de datos en las transformaciones existentes y evaluación de la madurez del gobierno); semana 2 dedicada al diseño de la arquitectura target, la evaluación de plataformas y la elaboración del roadmap de implementación con criterios de priorización
- Arquitectura Medallion con DBT + ADF: arquitectura de datos en tres capas (Bronze para datos raw, Silver para datos limpios y estandarizados, Gold para datos de negocio listos para consumo analítico) con Azure Data Factory como orquestador de pipelines de ingestión desde todas las fuentes y dbt Core para las transformaciones en las capas Silver y Gold, con modelos dbt versionados en Git y tests de calidad de datos por dominio
- Evaluación Azure Microsoft Fabric: análisis comparativo de Fabric vs. Azure Synapse Analytics vs. Databricks en cinco dimensiones (coste de plataforma, madurez de gobierno de datos, integración con el ecosistema Microsoft del banco, curva de adopción del equipo interno y roadmap de Microsoft), con recomendación de Fabric como target estratégico a medio plazo y Synapse Analytics como solución de transición para las cargas de trabajo inmediatas
- Gobierno de datos regulatorio: diseño del catálogo de datos con Microsoft Purview (linaje de datos extremo a extremo, clasificación de activos de datos sensibles para GDPR, políticas de acceso por dominio de negocio), modelo de datos de riesgo conforme a BCBS 239 (definición única de cada métrica de riesgo, linaje desde el sistema fuente hasta el informe regulatorio) y controles de resiliencia DORA para la plataforma de datos
- Hoja de ruta plurianual: roadmap de tres fases (Fundamentos en 6 meses, Modernización en 12 meses, IA y Analítica Avanzada en 24 meses) con criterios de éxito medibles por fase, equipo mínimo viable para cada fase y criterios de decisión para la migración a Azure Fabric cuando el servicio alcance la madurez suficiente para el caso de uso bancario regulado
Resultados en curso
Patrón de arquitectura
Data Landing Zone para banco de negocios especializado: arquitectura Medallion (Bronze/Silver/Gold) sobre Azure Data Lake Storage Gen2 con Azure Data Factory como orquestador de ingestión desde todas las fuentes bancarias y dbt Core para transformaciones versionadas en Git con tests de calidad por dominio. Gobierno con Microsoft Purview (catálogo, linaje, clasificación GDPR) y conformidad BCBS 239 para datos de riesgo. Azure Fabric evaluado como plataforma analítica target para la fase de IA del programa plurianual.
- La arquitectura Medallion es el patrón correcto para banca, pero el Gold debe diseñarse por dominio de negocio — en un banco de negocios, los dominios de riesgo, finanzas, tesorería y operaciones tienen necesidades de datos distintas. El Gold no debe ser una capa monolítica de datos de negocio, sino un conjunto de data marts por dominio con modelos dbt propios, permitiendo evolucionar cada dominio de forma independiente.
- dbt en banca requiere un modelo de governance de modelos, no solo de código — los modelos dbt son definiciones de datos de negocio con impacto regulatorio. Un cambio en la definición de un modelo de riesgo de crédito puede afectar a los informes BCBS 239 del banco. El proceso de revisión y aprobación de cambios en modelos dbt debe ser tan riguroso como el de cualquier cambio en los sistemas de riesgo.
- Azure Fabric es el target estratégico, pero no el punto de partida en banca regulada — Fabric es una plataforma en maduración rápida pero que aún tiene gaps en certificaciones de cumplimiento y capacidades de gobierno que los reguladores bancarios requieren. La decisión correcta es usar Synapse Analytics o Databricks como plataforma de transición mientras Fabric alcanza la madurez necesaria para el caso de uso bancario regulado.
- Microsoft Purview es imprescindible para BCBS 239, no opcional — el principio 3 de BCBS 239 exige que el banco pueda demostrar que cada dato de riesgo tiene una única fuente de verdad definida y trazable desde el sistema fuente hasta el informe regulatorio. Sin un catálogo de datos con linaje automático como Purview, demostrar este principio a través de documentación manual es inviable a escala.
- El assessment de dos semanas debe priorizar la calidad de datos por sobre la cobertura de fuentes — la tentación en un assessment rápido es inventariar todas las fuentes. Pero lo que define la viabilidad del proyecto es entender cuánta deuda de calidad de datos tiene el banco y qué nivel de transformación se necesita en cada dominio. Un dominio con datos de baja calidad puede requerir meses de limpieza antes de que el dbt sea útil.
- La resiliencia DORA de la plataforma de datos se diseña desde el principio, no como un add-on — DORA clasifica la plataforma de datos como infraestructura TIC crítica si los datos nutren informes regulatorios en tiempo real. El RTO y RPO de la plataforma deben diseñarse desde la fase de arquitectura, no como un requisito no funcional que se resuelve al final con backups.