Agente de Riesgo Crediticio en Tiempo Real

Situación del cliente

Banca mediana española con ~15.000M€ en balance y 200 oficinas. El proceso de scoring crediticio para PYMEs tardaba entre 3 y 5 días hábiles. Los analistas consultaban manualmente ocho fuentes heterogéneas: core bancario (T24 de Temenos), CIRBE, Registro Mercantil, cuentas anuales, bureaus de crédito (Experian/Informa), ratios sectoriales del Banco de España, noticias del solicitante e historial interno de incidencias.

Las operaciones por encima de 100.000€ iban obligatoriamente a comité de dos personas. El impacto era doble: pérdida de clientes ante neobancos que respondían en 24 horas, y un coste operativo que crecía un 20% anual sin capacidad de escalar el equipo proporcionalmente. Habían intentado un modelo de ML clásico que mejoró la velocidad marginalmente pero no resolvía el problema real: integración de fuentes heterogéneas y explicabilidad de la decisión ante el auditor.

Retos

Integración con ocho fuentes heterogéneas sin APIs estándar — especialmente CIRBE (Banco de España), que solo ofrece acceso mediante certificado digital y formulario web
Explicabilidad regulatoria bajo DORA y guía EBA sobre IA en crédito: el sistema debe poder justificar cada decisión ante el inspector del Banco de España con trazabilidad completa
Alucinaciones en cálculos financieros: los LLMs generan ratios financieros incorrectos con estados contables en formatos no estándar o con notas que redefinen partidas
Precisión decimal COBOL vs. Python: los sistemas legacy usan COMP-3 (aritmética decimal exacta); Python usa IEEE 754 (punto flotante binario) que acumula errores en cálculos de intereses
Gobernanza jurídica: el comité de riesgos bloqueó el proyecto tres meses hasta obtener dictamen legal sobre responsabilidad en decisiones asistidas por IA bajo legislación española y guía EBA
Latencia en producción: el diseño inicial con llamadas secuenciales superaba los 24 segundos por solicitud, inviable operativamente para el equipo de analistas

Solución implementada

Arquitectura multi-agente con patrón ReAct: cuatro agentes especializados coordinados por un agente supervisor: Agente de Datos Internos (T24), Agente de Datos Externos (CIRBE, Registro, bureaus), Agente de Análisis Sectorial (ratios BdE) y Agente de Síntesis y Recomendación
Paralelización de tool calls: las cuatro consultas iniciales se lanzan en paralelo al no tener dependencia de datos entre ellas — latencia de ~24s (secuencial) a ~7s (paralelo)
RAG jerárquico con re-ranking: chunking en tres niveles (sección → subsección → párrafo) con embeddings por nivel usando Amazon Titan Embeddings v2 (1024 dim) sobre DLC SageMaker dentro de la VPC. Re-ranking con cross-encoder. Mejora del 34% vs. búsqueda vectorial pura
Separación razonamiento/cálculo: Amazon Textract extrae tablas de cuentas anuales; capa determinista en Python calcula los ratios financieros con tipo NUMERIC (aritmética decimal exacta equivalente a COMP-3 COBOL). El LLM solo interpreta y contextualiza
Auditabilidad DORA: tracing ReAct completo (enableTrace: ENABLED) emitido a CloudWatch con cada ciclo Thought/Action/Observation. Expediente de auditoría generado automáticamente. Retención 7 años en S3
Prompt caching: la política de crédito completa (180 páginas) cargada con prompt caching, reduciendo tokens facturados y latencia ~85% en las partes estáticas del contexto

Ventajas para el cliente

−81%tiempo de decisión: de 3-5 días a 4 horas para operaciones hasta 250K€

2,1M€ROI en el primer año sobre una inversión de 380K€ (ahorro 4 FTE + recuperación de operaciones perdidas)

92%alineación con la política de crédito, medida en 200 consultas con evaluación humana

Auditoría automáticael inspector del Banco de España accede directamente al repositorio de expedientes — eliminado el proceso manual de preparación documental

Patrón de arquitectura

// ARCH 07 · AWS

Multi-Agent Credit Risk Analysis — AWS Bedrock

Sistema multi-agente para análisis de riesgo crediticio PYME en banca regulada española. Cuatro agentes especializados coordinados por supervisor ReAct, RAG jerárquico con embeddings en DLC SageMaker dentro de VPC, paralelización de tool calls y auditabilidad DORA con tracing completo a CloudWatch.

Bedrock Agents (ReAct)Claude 3.5 SonnetOpenSearch ServerlessSageMaker DLCCloudWatch Traces

// Consideraciones de despliegue · AWS Well-Architected

Embeddings dentro de la VPC obligatorio — usar DLC de Titan Embeddings v2 en SageMaker Endpoint privado. El texto de la política de crédito nunca debe salir al endpoint público de Bedrock en entornos bancarios regulados.
Nunca delegar cálculos numéricos al LLM — Textract extrae tablas; Python con tipo NUMERIC calcula ratios financieros. Los errores numéricos de LLMs en decisiones de crédito tienen consecuencias regulatorias directas.
Paralelizar tool calls sin dependencia de datos — las cuatro consultas iniciales se lanzan simultáneamente. En este proyecto pasamos de 24s a 7s de latencia con este único cambio de diseño.
Prompt caching para documentos estáticos — la política de crédito (180 páginas) cacheada en Bedrock reduce ~85% los tokens y la latencia en llamadas repetidas al sistema.
enableTrace: ENABLED desde el primer deploy — el tracing ReAct completo es el expediente de auditoría que el regulador (DORA, BdE) exigirá para cualquier decisión asistida por IA en banca.
Preparar el pack de gobernanza antes de la primera demo — el comité de riesgos bloqueará el proyecto sin dictamen legal sobre responsabilidad en decisiones crediticias asistidas por IA. Lo aprendimos aquí.

SeguridadFiabilidadCosteExcelencia Operacional

Compartir en LinkedIn