金科创新服务平台

首页 > 企业服务 > 产品服务 > 数据智能驱动的风险预警系统

数据智能驱动的风险预警系统

申请：226次

访问：913次

发布单位：

单位地址：

申请服务

服务详情

风觅

数据智能驱动的风险预警系统

摘要：

面对海量的金融信息、涉及网页、文本、图像、视频等非结构化数据，感易智能结合行业知识，运用数据智能技术，将数据智能治理的能力建设与金融机构业务场景的风险预警结合，历时四年打造了数据驱动的风险预警系统-风觅。已经深度服务了招商银行、宁波银行、中信证券、招商证券、新华信用等多家不同细分类型的典型客户；实现对企业、股票、债券、基金，及信贷、投行、资管和财富投顾等不同业务的不同信用风险及关联传染风险的平均提前预警100天以上、准确率超过90%、误判率低于7%。

关键词：风险预警；数据智能；事件信息智能抽取；

一、引言

党的十八大以来，数字经济上升为国家战略，十九届五中全会提出，推进数字产业化和产业数字化，推动数字经济和实体经济深度融合，打造具有国际竞争力的数字产业集群。党中央、国务院围绕“金融监管”密集做出了一系列重要指示和部署安排，风险预警数字化升级是当前政府、监管和金融机构共同推进的大方向。

科技部等六部门在关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见中强调金融领域优先探索大数据金融风控、企业智能征信、智能反欺诈等智能场景；中国银保监会办公厅在关于银行业保险业数字化转型指导意见中强调着力加强数字化风控能力建设，利用大数据、人工智能等技术优化各类风险管理系统，将数字化风控工具嵌入业务流程，提升风险监测预警智能化水平。

其中在人行和银保监发布的最新一期三个办法一个指引中，进一步明确商业银行贷后管理的职责和责任。固定资产贷款通常期限较长，需要贷款人对资金用途、借款人资金状况、项目完工风险等风险因素持续关注，对贷款人的贷后管理提出了较高的要求。《固贷征求意见稿》明确了贷后管理未尽职作为贷款人承担法律责任的情形，银保监会及其派出机构有权采取相应监管措施。固定资产贷款作为不良贷款的“重灾区”，《固贷征求意见稿》拟在加强贷款人对固定资产贷款贷后管理的重视。

为进一步推动商业银行准确识别、评估信用风险，真实反映资产质量，中国银保监会同中国人民银行联合制定了《商业银行金融资产风险分类办法》（以下简称《办法》），要求商业银行遵循真实性、及时性、审慎性和独立性原则，对承担信用风险的全部表内外金融资产开展风险分类。《办法》拓展了风险分类的资产范围，提出了新的风险分类定义，强调以债务人履约能力为中心的分类理念，进一步明确了风险分类的客观指标与要求。同时，《办法》针对商业银行加强风险分类管理提出了系统化要求，并明确了监督管理的相关措施。

随着外部宏观环境变化和产业结构化升级，企业作为市场主体暴露的市场风险形式愈加多样化、复杂化、隐蔽化，大企业“暴雷”现象也愈发频繁，波及范围也更加广泛深远；近两年来已有多家金融机构相继成立了专门的风险监测预警中心，数据智能驱动风险自动发现、多层传染、有效预警及管控闭环，从而提升金融机构风险管理能力和效率，提升业务场景的风控水平。

二、项目概况

风觅-数据智能驱动的风险预警系统，面向信用风险管理场景、提供数据智能驱动风险自动发现、多层传染、有效预警及管控闭环，主要实现以下功能：

1）智能加工整合海量、多源、异构的内外部数据，风觅实现自动发掘宏观、行业、区域、金融机构、金融产品业务、企业的风险信号；

2）深入业务场景构建的风险感知引擎，风觅实现对多层级衍生风险、多类复杂隐蔽风险的提前预警，平均在100天以上、且准确率超过90%、误判率低于7%；

3）结合风险排查认定及客户管控的闭环反馈，风觅建立对风险信号预警有效性的科学评价与持续优化，为业务提供精准有效、及时全面的风险预警服务。

同时，实现各类风险信息源与审批意见落实的监控自动化、数据驱动风险排查与研判分析，显著提升金融机构的业务风险准入、审查、监控及处置的风险管理效能，逐步成为信贷、投行、资管、财富等业务场景日常监测运营、风控营销的数字化工作台。

整体业务处理流程如下：

第一步：事件信息智能抽取

1、外部数据（包括舆情信息、三方数据等）及本地数据（包括数仓数据、大数据平台数据、产品组合数据、交易数据、账户类数据等）通过采集输入金融信息认知计算引擎；

2、对结构化数据、半结构化数据、特别是非结构化数据进行智能解析、事件信息抽取加工、风险关联关系挖掘；

3、在此基础上从而构建与风险信号预警相关的事件标签及要素、因子及指标。

第二步：标签模型加工管理

1、将前置流程处理好的数据基础，输入感易智能已构建好的风险数据集市、指标库、标签库进行运营管理，从而进一步构建360度客户视图及客户分群画像，同时挖掘搭建多层级的风险传染网络；

2、结合业务专家智识构建风险场景模型库，如舆情事件风险模型、财务/资金风险模型、资产/组合风险模型、风险传染模型、风险评价模型等；

3、打造风险指标、规则、评分卡、模型管理工具，以便更精准的提炼、组建风险信号，实现个性化、体系化风险管理。

其中自定义指标内容包括自定义指标：

自定义规则：

自定义规则的召回：

自定义评分卡：

自定义评分卡的召回：

第三步：风险信号智能发现

1、根据业务场景需要，进一步优化、划分、构建风险信号体系，包括如下大类：企业综合风险信号、股票/债券/基金舆情风险信号、行业/政策/监管/市场舆情风险信号、金融机构及产品业务风险信号、业务场景定制的风险信号等；

2、基于已构建的风险信号体系，通过工具应用实现风险信号的“监控—预警—传染—通知”的灵活配置，形成风险预警“排查—化解—处置—评价”的管理闭环及数智化。

预警排查任务：

第四步：风险预警客户管理

化解方案审批流程：

预警客户名单管理：

通过以上流程对风险数据深度加工，形成可支持金融机构风险管理、信贷管理、资产管理、财富管理、投资银行、机构服务等场景风险信号数据服务及系统应用。

三、项目创新点

（一）深入业务场景建成风险感知引擎

基于数据智能的风险预警系统在落地中深入业务场景逐步建成风险感知引擎。如下图所示，在数据管理及治理层面，通过对非结构化数据智能处理实现标签化、事件化整合内外部数据；在风险多维分析及挖掘层面，赋能业务人员低门槛加工数据标签及风险因子，并建立动态的多层级风险传染网络，同时为管理指标、规则、评分卡、模型等提供可视化的工具套件，帮助用户更好地融合业务经验，更好地构建风险画像及风险数据集市，更好地优化各类风险分析、传染及评价模型；再通过风险信号配置引擎，满足风险管理及不同业务部门对风险信号监控、预警、传染及通知的差异化灵活配置诉求，进而实现对客户及产品业务的风险预警的“排查-化解-处置-评价”的管控及预警有效性的反馈闭环。

图1. 风险感知引擎框架

1. 支持业务自主加工相关数据及标签

面对业务日常突发及碎片化的数据提取及业务标签提取需求，通过数据标注及算法工程师训练模型无法做到及时响应和针对性满足。公司基于大规模语料及模型知识沉淀，创新研发了样例传播算法，将数据加工转变为用户只需标注样例的简易过程。相比较于阅读理解、多轮问答、Prompt Learning等当前主流方案，不需要微调模型、不需要大量标注，零样本学习效果大幅提升。主要特色如下：

- 需求场景可快速迁移。运用Prototype-Learning改造主流信息抽取算法，用户只需提供一条样例数据，即可自动从其他数据中抽取同类型信息。可快速支持不同业务场景的非结构化数据标签及要素的信息抽取，做到让业务人员能用；

- 用户上手门槛大幅降低。融合Semi-supervised learning与active learning，自动挑选具有代表性的补充样例供用户标注确认，不需要微调模型，不需要算法及开发人员参与，做到让业务人员会用；

- 模型效果可自动优化。借鉴统计机器学习的Bagging、Boosting算法，通过集成学习不同样例的传播结果，持续优化模型效果。当用户发现效果不好，补充提供新的或标注确认自动挑选的样例数据，即可实现效果快速提升，做到让业务人员好用。

2. 风险信号与业务场景融合

风险信号作为风险分析的结果，来自于对风险标签及相关的指标、规则、评分卡及模型的融合运用。针对业务场景定义和划分风险信号，涉及如下三个维度：

- 风险分析维度。首先按监控对象归类，例如证券融资各类客户及其债券或担保券，证券投资各类标的及其资产组合；再从资管、财富、投行、机构服务等业务经营需求角度，针对性的设置监控对象的风险信号及分析方法；

- 事件主体维度。舆情信息通常涉及公司、机构、人物、行业、区域、股票、债券、基金等实体，在事件抽取中作为事件主体被识别出来，并进行实体链接和冲突消歧，再直接对应、组合加权或关系映射到目标监控对象；

- 事件标签维度。为不同场景设计不同的标签体系。例如，我们从信用风险预警的角度，对公司舆情事件细分为企业信用、治理、经营、财务、资本市场以及相关的行业信息、政策分类等标签共计752个，其中产生风险信号的标签342个，再进行事件定性与风险定量分析，区分为特别严重风险、严重风险和一般风险；我们从产品投研风险预警的角度，对基金产品事件分为产品发行、申购赎回、业绩披露、投资管理、基金变更、交易清算等10大类标签共计364个，再根据风险类型区分为市场风险、合规风险、信用风险、流动性风险涉及标签28个，例如暴雷、曝光、清算、大额赎回等。

3. 事件驱动风险传染网络

为具备深层次、复杂隐蔽风险的监控预警能力，系统基于事件传导构建了风险传染网络。以往业务通常使用诸如企业的股权投资、融资及担保、供应链及产业链、集团派系等关联关系，以及产品业务的资产组合及资金关系。但是，这些主体关系往往是静态的、滞后的和浅层次的。为此，感易智能的风险预警系统结合了更高时效及覆盖度的内外部信息来挖掘、扩展和更新关联关系，事件驱动建立动态的多层级风险传染网络。例如挖掘底层资产标的、判定股权关系变化、剔除历史的或一次性的供应关系等。

（二）形成可持续优化的预警管理闭环

感易智能的风险预警系统已形成了风险“监控-识别-传染-预警-排查-化解-管控”的信号应用管理闭环，自动化形成结合预警管理进行科学评价的预警效果反馈闭环。

1. 形成信号应用管理闭环

风险预警系统将风险信号进行了多层级配置、分层次执行、个性化终止的精细化管理，与预警管理业务流程全面集成，实现对客户或监控对象更精准的风险画像、可解释的风险认定、更有针对性的排查任务及方法、可复用的预警等级调整及出险归因经验、更及时的风险处置和可评估的预警客户管理；并使用在此流程中产生的运行数据建立多维管理看板，帮助各层级管理者全面洞察风险信号、预警客户及相关落实情况，进而实现预警管控决策数智化。如下图所示：

图2. 预警信号应用闭环

2. 形成预警效果反馈闭环

除了在数据源、标签、指标、关系、规则及模型层面优化信号质量，事实上可以结合历史的排查认定结果，评价信号的有效性，形成预警效果的反馈闭环，实现可持续优化的智能预警。例如：

- 排除低质量的信号或者降它的预警等级；

- 部分高预警有效率的信号，在管理要求上进行更高时效的排查；低预警有效率的信号降低排查时限；节省管理成本，提高效率；

- 通过机器学习挖掘信号组合有效性，并且输出组合信号的预警有效率、预警提前次数和预警提前平均天数等。

结合信号应用管理及效果反馈两个闭环，实现对风险信号进行全生命周期管理，保障风险信号得到有效预警、有效排查、有效迭代。

（三）增强金融事件信息抽取能力

人类主要是以“事件”为单位进行记忆和理解现实世界的，事件涉及到多方面的概念，具体是指发生在某个特定时间点或时间段，在某个特定空间范围内，由一个或者多个角色参与的一个或多个动作组成的事情或者状态的改变。面对海量的金融信息，尤其是非结构化数据，我们把事件作为机器理解内容的基础语义单元。

1. 建设金融事件标签体系

截至目前，我们在金融业务场景已经构建了6大类事件主体，累计涉及50项一级分类，300项二级分类，1800项三级分类的事件标签体系，其中风险类事件标签超过500个。各类标签在模型层面的F1值平均能够持续保持在87%以上，并且加强了对典型事件信息抽取问题的解决：

1）模型能够支持篇章级语义抽取。同一事件的不同要素跨句跨段落，例如从募集说明、股权激励、购买理财产品等公告中抽取事件的多个要素往往分布在不同的章节，甚至前后间隔的内容较多；

2）模型能够提炼事件的语义知识。同类事件的表述及口径多样化，例如都是讲述“产能提升”，在不同公司的不同文章中往往存在多种方式；

3）模型能够识别多个事件及要素的关系。多个事件被交叉描述在一起，例如上市公司披露的多个股东的多笔股权解质押公告。

2. 能够自动解析非结构化数据

在底层数据层面，对于包含网页、文本、表格、图片及混合的内容，及PDF、Word、Excel、扫描件等不同格式的文档，需要统一转为文本内容。针对复杂情况，需要做更深度的智能解析，例如：

1) 针对复杂排版的内容，如上市公司的ESG报告，需要转换成机器可读顺序的文本内容；

2) 针对PDF、图片等仅有布局信息（点、线、文字等），需要还原内容结构。包括根据页面、文字、线框排布对多种跨页表格的判定，运用图像及文本检测模型对无框表格的框线补全；对表格中印章的检测和消除；

3）针对难以通过颜色特征区分的黑色印章，还需要数据增强、半监督学习等技术增强图像语义特征提取。

3. 持续舆情数据质量治理

舆情信息内容主观成分占比高且噪声多、表述方式及内容载体多样、多源且质量参差不齐，要转换为对业务可用可分析的价值数据，需要来自对数据、模型、知识持续的运营和积累，来自对问题持续的发现和优化，以及配套的治理机制。

1) 内容识别与筛选。例如识别与业务场景无关的新闻，过滤内容中的贴片广告、二维码、外部链接、广告文本等等。我们对内容识别的准确率达到93%，去重率达到95%；

2）信源质量管理。根据网站权威度、栏目相关度、内容质量等准入有效的信源；再根据采集异常情况、内容可用情况持续剔除低质量的信源。当前我们积累了7000个有效信源；

3）标签质量管理。综合模型性能指标、信源质量、标签与信源一致性等对标签进行置信度评分，并根据标签分布统计和多源标签比对，进一步优化标签选择。实现从模型层面平均F1值87%，提升到实际可交付的F1值95%；

4）字典词库管理。结合知识、数据、算法构建多类字典词库，以公司别名库为例，我们通过精细运营和积累，提升了40%的公司舆情事件标签覆盖率。

四、项目运营和项目成效

随着项目建设完成，客户内外部数据源得以充分利用，挖掘和识别，用于业务风险的有效发现和提前预警。系统历时四年持续的技术打磨、场景落地、产品迭代，已具备功能模块及数据服务标准化、能力组件化水平。风觅体系化实现了自动发掘宏观、行业、区域、金融机构、金融产品业务、企业的风险信号；深入业务场景构建的风险感知引擎，有效地实现了从单一主体风险关联发掘多层级传染风险信号，并结合风险评价实现预警效果的反馈闭环。目前已在多家各类头部金融机构落地应用，服务涵盖风险管理、授信审批、公金、投行、财富、数据管理、信息技术等多个业务场景及部门，保持着与老客户100%的持续合作，并在客户方和行业获得多项奖项荣誉。

在行业典型应用中的客户效果反馈举例：

- 2020年为某头部股份行成功识别86%的历史高风险，平均提前121天；贷前单笔业务审批节约 3人天，贷后每年累计节约风险经理工作量超过千人天；实现风险预警一户一管及全行风险地图，有效提升管理者的全局管控能力及预警管理的数字化程度；荣获全行金融科技杰出项目。

- 2021年帮助某中小城商行提高了风险监控自动化及数字化水平，替代了手工作业，70%的信号实现自动化生成，监控频率由T+90提高到T+1；同时大幅降低风险监控成本，实现了对公、零售的风险监控自动化和一体化管理，有效解决了风险监控各业务条线割裂和协同问题。感易作为供应商获得该行99.08的年度评分。

- 2022年为某头部城商行平均提前半年预测出其关联方风险等级调升，对于当前出险客户回检准确率99%；平均提前5月预测客户偿债能力不足；平均提前3.5个月挖掘组合风险信号；评价认定20%的原有信号为无效，沉淀1000多个业务风控指标；大幅降低了业务工作量，提升了风险排查效率。

五、项目总结

感易智能以成长为数字经济时代的认知计算引擎为公司愿景，以挖掘数据要素，驱动数智决策，增强数字经济为团队使命，致力于数据智能的底层技术创新，并实现业务决策的数智化。

在数据驱动层面，我们专注数据智能如何为业务更好利用。团队形成了一定要深入业务场景、一定要长期打磨产品技术的实践认知。我们坚定认为任何技术，尤其是AI创新，必须是业务应用导向，必须与客户业务决策系统地结合，并实现场景内的数据驱动闭环。以我们的风险数智化预警管理系统-风觅为例，面向信用风险管理场景、数据智能驱动风险自动发现、多层传染、有效预警及管控闭环。

风觅在与客户的持续合作中打磨超过四年，已经深度服务了二十几家不同细分类型的典型客户；实现了对企业、股票、债券、基金、以及信贷、投行、资管、财富等业务风险及其传染风险的提前预警，平均在100天以上、且准确率超过90%、误判率低于7%。

在风险传染方面，结合更高时效及覆盖度的内外部信息，挖掘、扩展和更新关联关系，事件驱动建立动态的多层级风险传染网络，与以往业务通常使用诸如企业股权投资、融资及担保、供应链等静态的、滞后的和浅层次的关系相比，实现了对深层次、复杂隐蔽风险的监控预警能力。

在风险评价方面，将风险信号进行多层级配置、分层次执行、个性化终止的精细化管理，与预警管控业务流程集成，结合历史的排查认定结果，通过机器学习挖掘和评价信号的有效性，形成预警效果的反馈闭环，实现对风险信号进行全生命周期管理，保障风险信号得到有效预警、有效排查、有效迭代。

同时为用户管理指标、规则、评分卡、模型等提供可视化的工具套件，帮助用户更好地融合业务经验，更好地构建风险画像及风险数据集市，更好地优化各类风险分析、传染及评价模型；再通过决策引擎，满足风险管理及不同业务部门对风险信号监控、预警、传染及通知的差异化灵活配置诉求；并且实现了各类风险信息源与审批意见落实的监控自动化、数据驱动风险排查与研判分析，显著提升金融机构的业务风险准入、审查、监控及处置的管理成本与效率。

(案例字数：7223)

前一个：投研工具箱

后一个：博彦普惠金融