首页 > 企业服务 > 产品服务 > 北京易道博识科技有限公司

返回

北京易道博识科技有限公司

申请:0次 访问:257次

发布单位:

单位地址:

申请服务
服务详情

中国金融科技应用场景优秀案例

易道博识赛博智能学习平台项目

摘要:

随着金融业务的发展,越来越多的业务线中涉及的纸质凭证影像需要用到OCR自动处理,来进一步提升业务办理的效率。这些凭证存在种类多、更新频繁、长尾凭证“鸡肋”、数据安全等问题基于上述情况,业务中的OCR识别工作十分复杂,面临着高成本、低效率的困境。此外,深度学习在实际应用中条件很苛刻过程中需要大量的AI算力、高质量数据源、Al应用算法研发及Al技术人员的支持。与此同时,伴随着金融业务的快速增长,诸多金融机构面临大量AI应用模型开发内部迭代,然而迭代周期长、重复造轮子等情况直接阻碍了其“模型成长线”的高效运转如何解决从“模型输出”到“实现业务期望”这最后一公里的问题已成为关键破局点因此行业迫切需要一个能够减少后续投入,数据自主可控的解决方案。

基于此,赛博智能学习平台应运而生该平台定位于一站式机器学习训练平台,集合数据管理、模型训练、智能模板和服务应用等功能于一身,提供CV、OCR、NLP等领域数据驱动模型应用的现场高效解决方案。赛博智能学习平台提供前沿的人工智能技术、经济合理的模型生产经验,不仅能减少由0到1的开发成本,而且可降低人工智能市场的参与门槛,提升开发效果。

 

关键词:数据、训练、推理、OCR、NLP

项目背景

随着金融业务的发展,越来越多的业务线中涉及的纸质凭证影像需要用到OCR自动处理,来进一步提升业务办理的效率。这些凭证影像按照格式可以分为两类:固定格式的凭证和非固定格式的凭证,其中固定格式业务类凭证占90%以上,在具体业务中会面临如下痛点:

1、凭证种类多:

在各个业务受理过程中涉及到的凭证都在百种以上,甚至多达几百种;

2格式更新频繁:

不少凭证会随着业务需求或者监管制度的变化而调整格式,导致需要重新定制;

3、长尾凭证“鸡肋”:

存在很多使用频率低,但总体数量大的凭证,这些凭证单独采购识别的价值不大但又无法解决;

4数据安全:

大多数情况下,隐私数据是无法对外的,如何在这种情况下做模型训练是客观需要面对的问题;

其中,固定格式凭证中不同样本中锚点元素之间几何图形位置相对固定及文字内容固定,需要提取的信息范围相对固定如身份证、户口本、行驶证等等;而非固定格式凭证具有文本不定长(可变长文本),锚点排版不固定或者不存在所谓的锚点,或者具有可伸缩的流水式的数据,如银行流水等。

wps42.png 

基于上述情况,业务中的OCR识别工作十分复杂。目前存在两种解决方案,但两种方式均存在一些缺陷:

一种是委托技术提供商做定制开发:按照凭证种类委托OCR厂商进行定制开发,逐一支持各类凭证;另一种,是基于OCR底层能力进行自研:基于OCR厂商提供的底层识别能力(文字、表格、手写体、印章等识别能力),自己投入研发力量从代码层面开发针对各类票据的OCR功能。

wps43.png 

不过,以上两种方式均存在一些缺陷:第一种方案,持续投入高,需要厂商就每一种凭证进行定制化开发。第二种方案,成本投入更高,不仅需要采购厂商底层能力,而且需要OCR专家团队的支持。因此,银行迫切需要一个能够减少后续投入,自主可控的解决方案。

此外,深度学习在实际应用中条件很苛刻。人工智能模型的开发与上线应用需要经历从业务理解、数据采标及处理、模型训练与测试到运维监控等一系列流程。过程中需要大量的AI算力、高质量数据源、Al应用算法研发及Al技术人员的支持。

而事实上,大部分中小企业用户并不具备在“算力、数据、算法”三维度从0到1部署的能力,而财力雄厚的大型企业亦需高性价比的AI开发部署方案。

假如,每次开发模型都需要算法工程师单独完成从生产到上线的全流程招建,就会导取很多时间的耗损与AI模型开发成本的浪费。所以集标注、训练、推理于一体的赛博智能学习平台应运而生。

 

项目方案

易道博识赛博智能学习平台简称赛博平台),是易道博识基于深度学习自主研发的全栈式数据服务平台。产品组成上,赛博平台CBB)由管理中心(CBC)、数据(CBD)、训练(CBL)、智能模板(CBT)、推理(CBS)和API管控(CBM)几个子平台组成,各子平台依次承担平台管理、数据管理与标注、模型训练、智能模板、模型服务和API管控的功能。各个子平台之间相互独立又有效协作,形成一个有机整体,有效支撑数据驱动模型应用的整体功能。

赛博平台支持广泛的部署运行环境,包括单机、服务器、集群、云端以及容器化。用户接口支持图像化界面和命令行两种方式,前者支持用户通过简单易用的界面完成所有的功能操作,后者则提供更加专业化的用户操作功能,如算法管理、系统调测等。

从外因看,规模化多场景的业务不断衍生出长尾需求,原有的应用需及时更新;从内因看,囿于开发企业有限的经营成本与AI技术人才,其资源主要投放到现阶段的主营业务,现有人员难以推动业务的智能化改造。

从总体上看,赛博平台可提供前沿的人工智能技术、经济合理的模型生产经验。具体而言,其采用自动机器学习技术,很大程度上降低了机器学习的编程工作量、节约了AI开发时间、减轻了对专业数据科学家与算法工程师的依赖,让缺乏机器学习经验的开发者用上AI,加快开发效率。

 

创新点

赛博平台可有效缓解B端、G端逐渐增长的、从感知到认知多类型的AI应用模型开发、训练到部署的完整需求,输出AI技术服务能力,提高AI应用模型在各行业的渗透速率与价值空间。在需求传导链中,需求端与供给端的传导链并不完全独立,可同时共存,易道博识就有能力充当AI技术层供应和AI基础层供应的双重角色。

wps44.png 

赛博平台与易识多功能影像识别平台均开放API接口,将能力输出给应用开发企业,并吸收下游更新的产品与技术,从横向与纵向拓展业务的广度与深度;同时,两个平台之间也会进行能力的互换,共同促进技术积累与迭代升级。

wps45.png 

在人工智能产业发展的过程中,智能模型敏捷开发工具可持续拓宽与深挖AI业务的广度和深度。从广度讲,AI开放平台形成平台效应,调用平台API的开发者聚集创新,针对不同业务场景的开发成果数量逐渐增多,提高了技术产品的利用率,打造出轻量化的输出模式、降低单位开发成本,并且构建出动态更新的服务池;与此同时,一站式AI应用模型效率化生产平台逐步填充因场景多元化而衍生出的长尾业务模型,丰富模型供应市场的种类与数量。

wps46.png    

    从深度讲,二者均从业务前端发掘潜在或外显的市场需求,针对刚需应用与高价值环节延伸出多条增量建设与运行需求业务线,瞄准市场风口的同时,敏捷、经济地消化个性化或碎片化需求,根据需求柔性匹配生产。

 

四、项目系统架构

1、整体架构

wps47.png 

赛博智能学习平台平台整体架构图

整体上,赛博平台CBC、CBD、CBL和CBS四个子平台组成。CBC负责对整体平台的管理以及其他三个子平台的运维。CBD、CBL和CBS之间传递数据或模型,以打造数据驱动模型应用的闭环。

2、部署架构

wps48.png 

赛博智能学习平台集群部署架构图

部署架构上,赛博平台可以划分为文件系统和数据库基础软件、赛博平台前端、赛博平台各子平台后端、Gateway网关和Consul注册中心。

wps49.png 

赛博智能学习平台分布式部署架构图

分布式部署时,赛博平台中心集群与其他集群之间通过模型、数据和API统计等信息的交互,可以实现模型远程推送、集群间数据闭环以及API状态监测和统计获取等功能。

 

技术实现特点及优势

赛博平台能提供经济合理的模型生产经验以及为实现敏捷开发而打包的数据、算力与算法资源,凝聚了易道博识2013年创立以来,在文字识别,图像识别等核心技术上近十年的技术沉淀和经验积累。是一只由来自中科院、清华大学、北京大学等的多名顶尖人工智能专家组成的团队结合近10年的数据服务经验,基于深度学习自主研发的全栈式数据服务平台。

具体而言,平台采用自动机器学习技术,很大程度上降低了机器学习的编程工作量、节约了AI开发时间、减轻了对专业数据科学家与算法工程师的依赖,让缺乏机器学习经验的开发者用上AI,加快开发效率。

数据平台CyberData提供对数据的智能化管理和标注功能。提供数据管理、数据标注、数据采集、统计管理、日志管理等服务,以采集和标注为主。其中包括数据集的创建与合并,数据的筛选、预处理、后处理等管理功能,支持用户私有、公有和组内公开数据集管理等。一般是由客户提出具体需求,数据平台CyberData对客户提供的数据进行标注、或对数据进行采集并标注。

wps50.jpg 

训练平台CyberLearning定位于一种及时快速的机器学习、深度学习模型训练平台,与推理平台CyberServing和数据子系统一起,提供及时、现场化的模型应用解决方案。该平台充分利用现有的经过长期迭代的基础模型能力,包括图像、OCR、NLP等,在少量标注样本的驱动下,利用迁移学习,小样本学习等技术,高效的完成增量模型的训练,生成最优的模型文件,并无缝对接推理平台CyberServing系统,实现模型的快速部署与生产应用。整体上讲,训练平台CyberLearning产品需求可分解为训练、模型、数据、平台管理和其它非功能项等部分。其中,训练、模型和数据模块属于基础核心模块。平台管理通过用户界面和命令行提供对各个基础模块的协调和管理,以及与外部模块,如推理平台CyberServing,的接口功能。

推理平台CyberServing,即赛博CyberBot推理平台,是CyberBot智能系统的重要组成部分,主要完成各种识别功能。业务系统通过调用推理平台CyberServing提供的RESTful API提交图像并获得识别结果。整体上讲,推理平台CyberServing产品需求可分解为模型管理、API过程定义、识别数据查看,接口统计和其它非功能项等部分。其中模型管理和API管理模块属于基础核心模块。

wps51.jpg 

 

赛博平台属于API资源的一种,其可帮助技术领先企业开放AI能力与先进资源,从而延伸价值链、构造产业生态,形成规模经济与长尾经济,且利用开发者的创新应用来反哺开放平台;同时,其亦可在减轻基础设施建设投入的条件下协助开发者打造自身产品或服务,节省开发时间。

wps52.jpg 

 

项目成效

赛博平台的出现与驱动AI业务的外因以及企业自身的内因紧密相关。从外因看,规模化多场景的业务不断衍生出长尾需求,原有的应用需及时更新;从内因看,囿于开发企业有限的经营成本与AI技术人才,其资源主要投放到现阶段的主营业务,现有人员难以推动业务的智能化改造。针对此局面,可有效解决AI应用模型设计与开发过程中通用或特有问题的智能模型敏捷开发工具逐步成为备选方案。    

赛博平台的出现与驱动AI业务的外因以及企业自身的内因紧密相关。从外因看,规模化多场景的业务不断衍生出长尾需求,原有的应用需及时更新;从内因看,囿于开发企业有限的经营成本与AI技术人才,其资源主要投放到现阶段的主营业务,现有人员难以推动业务的智能化改造。针对此局面,可有效解决AI应用模型设计与开发过程中通用或特有问题的智能模型敏捷开发工具逐步成为备选方案。    

赛博平台作为AI应用模型效率化生产平台其中的代表性工具,不仅能减少由0到1的开发成本,而且可降低人工智能市场的参与门槛,提升开发效果。

在人工智能由技术落地应用阶段向效率化生产阶段转变的背景下,我们认为赛博平台的各模块工具有望走向集约型的生产模式,达成以下三个方向的改进效果:

1、开发方式改进:

从客户需求分析到解决方案部署形成独立的闭环,构建端到端的工作流。在强大算力的支持下,完成数据采集、数据标注、数据治理、数据应用、模型设计、参数调优、模型训练、模型测试、模型推理的全栈式流水线生产。

2、管理效率提升:

将数据、算法与算力委托给专业的服务商,实现一站式托管,打通三者之间的衔接壁垒,提高交互友好性,让开发者专注于业务。

3、部署成本降低:

集成数据、算法、算力的各个软件与硬件,企业可在一个平台内按需选择自己所缺失的模块组件并自由搭配,有效避免因采购不同供应商的产品或服务而带来的隐性成本损失与显性成本损失。

 

 

 

 

 


前一个:博彦普惠金融

后一个:基于区块链和物联网的生物资产监管平台

企业名称
密码
手机号
验证码
手机号
密码
验证码