中小银行数据仓库建设思考
2023.05.12近年来,随着银行业务日益发展、监管要求不断深化,秦皇岛银行逐步将数据分析、数据应用、数据挖掘作为金融业务发展和管理决策的重要支撑手段,将数据作为行内的核心资产,不断拓展数据应用场景,提升数据资产管理能力。烟囱式系统建设模式会给数据建设带来严重后果,数据标准、数据规范无法按预期实施,数据质量提升与预期相距甚远。秦皇岛银行原有的数据平台(简称ODS)系统已经不能满足业务部门日益旺盛的数据分析需求,同时也面临着一些其它问题,如:数据架构混乱,数据存储分散、数据冗余严重、数据网状结构,缺乏统一的数据模型和数据管控等,迫切需要对ODS系统进行重构,对数据进行统一整合,构建全行数据标准化体系,满足行内业务快速发展及数据辅助应用等需求,能够在激烈的数字化转型竞争中发挥应有的价值。
一、建设思路
秦皇岛银行于2021年7月正式启动数据仓库升级项目建设,项目组在项目建设时提出“数据标准先行、数据管控跟进、应用驱动与数据驱动相结合”的数据仓库建设方法,将数据标准、数据管控和数据应用统一纳入数据仓库建设工作范畴。数据仓库作为全行基础数据底座,接入44个业务系统,按照DW五层架构以业务驱动规划设计13个业务主题模型,按照“一数一源”原则实现统一的基础数据资源管理,避免重复建设和指标冗余,保障数据口径的规范和统一,实现数据资产全链路关联,为数据分析提供数据支撑。
数据标准先行
数据标准是一整套数据规范,是开展数据治理工作的必要先行和重要基础。数据标准是为了规范数据在行内外共享和使用的一致性和准确性,对数据分类、业务属性、技术属性、管理属性等所做的统一规定。数据标准实施分为数据标准制定和数据标准执行两个阶段,我行依托数据仓库需求调研过程梳理现有元数据,并以此为基础借鉴同业和厂商实施经验,制定我行的数据标准,再经行内各部门协商一致,批准发布一套供各部门遵循使用的规范性数据标准文件,从而确保银行的数据资产在交换和使用过程中具有高度的一致性和准确性,通过数据仓库实施过程去落地,从而完成全行数据流向的标准化和规划化。
数据管控跟进
数据标准解决了数据的入仓问题,使得更多业务系统的接入成为可能,在丰富数据源的同时也带来了新的挑战,即如何保证入仓数据的高质量。这个问题如果不能妥善解决,将会直接影响数据仓库的使用效果,对数据仓库是“企业数据垃圾桶”的抱怨就是该问题的具体体现。
我行在开展数据管控工作中,采用了规划、组织、制度、技术工具等因素相结合的综合数据管控机制,并在这四个层面开展了相应的工作。规划层面完成了数据管理制度与流程体系的整体规划;组织层面建立了由全行专项数据治理机制领导下的数据管控组织;制度层面制定了数据标准管理、数据质量管理、元数据管理、数据模型管理、数据交换管理、报表需求管理等六项数据管控办法和数据管理专项考核指标,为数据管理提供制度保障,保障数据管控制度的落地执行;技术层面完成了数据管控平台的建设,为全行员工参与数据管控工作提供了技术工具。这四个方面缺一不可,任何一方面的缺失或不足难以保证数据管控工作取得实际效果。
在数据仓库建设中,我们以元数据管理为基础,以管控流程为手段,使数据仓库成为全行可信、可控的数据源。
应用驱动与数据驱动相结合
数据应用不足、数据服务缺乏是当前中小银行数据仓库建设所面临的一个共性问题,由此所导致的后果就是空守“宝山”却不能用,投资的价值得不到体现,而这也影响到管理层经营决策使用,导致投入减少,不足以支持众多数据服务的建设,从而形成不良循环,最终导致整个数据仓库建设失败。
在梳理数据仓库的建设需求时,为了进一步体现数据仓库的应用价值,我们不仅考虑如何从底层保证数据的入仓,还从数据应用入手,将数据仓库支持的应用按照客户分析营销、风险管控、监管审计、精细化管理分类建设,提升我行经营管理、决策分析和监管报送水平。我们在数据仓库项目群建设时,将数据仓库、数据集市与数据应用进行协同建设,实现仓库建设与数据应用建设互动,充分体现数据仓库建设价值。
二、分层规划
稳健的数据仓库体系,需要对数据进行分层存储,既要保证数据模型的稳定又要尽量屏蔽对下游的影响,并且要避免数据链路过长。分层是以数据为驱动,解决当前业务快速支撑并为未来抽象共性框架赋能其他业务线的稳定方法。秦皇岛银行根据自身情况,划分五层数据架构:缓冲层、贴源层、模型层、汇总层、集市层,不同数据层间的数据流向关系如下图所示:
缓冲层:数据临时层,这一层不做过多的数据清洗工作,原封不动地接入原始数据,保留明细数据,保留短期历史数据,同时建立全行的历史数据查询系统,可从缓冲层直接获取数据。
贴源层:该层与缓冲层保持一样的数据粒度,对源系统数据不整合不加工,但保留长期的历史数据。
模型层:按照业务主题进行数据分类存储,对数据进行整合,且保留长期的历史数据。在模型层进行数据标准落标,丰富数据资产的要素。
汇总层:按照主题结合维度建模,对数据进行整合汇总加工,保留关键时点历史数据,数据来源模型层。
集市层:以维度建模为主,根据应用需求对数据进行整合加工,保留特定业务需求的历史数据,集市层的数据来源模型层和汇总层。
三、模型设计
数据仓库模型不只是考虑如何设计和实现功能,还应从访问性能、数据成本、使用成本、数据质量、扩展性等多方面来统筹考虑。数据仓库模型总体设计原则如下:
1.高内聚、低耦合。即主题内部高内聚、不同主题间低耦合。模型层按照业务划分主题,汇总层按照“实体+ 活动”划分不同分析主题,集市层根据应用需求划分不同应用主题。
2.核心模型和扩展模型要分离。建立核心模型与扩展模型体系,核心模型包括的字段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要,不能让扩展模型的字段过度侵入核心模型,以免破坏核心模型的架构简洁性与可维护性。
3.公共处理逻辑下沉及单一。越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用实现,不要让公共逻辑多处同时存在。
4.成本与性能平衡。适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。
5.数据可回滚。处理逻辑不变,在不同时间多次运行数据结果确定不变。
常见的模型设计方法有范式建模和维度建模。我行数据仓库模型设计根据各层的定位分布采用两种建模方式相结合的设计方式,模型层采用范式为主,维度为辅;汇总层采用维度为主,范式为辅;集市层采用维度建模方式。
模型层表的定位是规避变化,融合数据,规范标准,表设计上至少满足以下几点:
1.准确的业务定义。模型层的表字段要求信息调研清晰、业务含义明确,这是数据应用与数据服务的前提与基础。
2.整合各系统分散的信息。共性信息进行提炼,可以提高应用的开发效率和准确性。
3.建立数据关系形成企业级的数据视图。
4.表结构的稳定性要求,避免源业务系统的变化对模型层的致命的冲击,保证源系统数据的可读性。
汇总层表的定位是面向多个应用提供共享数据服务的一个公共数据集市,设计要求满足一次加工多次使用,构建在数据仓库与应用数据集市之间。汇总层从业务的角度,提取具有共性、可被多个应用所复用的基础数据和汇总指标;按业务组织数据,按照一定的粒度进行数据整合、去规范化处理,并且存储某些关键时点的历史快照数据。
集市层表的定位是面向特定业务的应用集市,设计上更偏向业务的特殊性、个性化内容。
四、主题划分
按照数据描述的业务活动的信息,将银行在业务活动中的产生的同类数据自然汇集在一起的数据集合称之为主题。我行结合国内外模型设计理论,借鉴同业金融机构模型设计经验,结合现有业务特点进行主题划分,共包括13个业务主题:客户主题、产品主题、内部机构主题、存款主题、信贷主题、理财主题、票据主题、信用卡主题、资金资管主题、财务主题、渠道主题、支付结算主题、中间业务主题。
客户主题:描述服务的对象和感兴趣进行分析的对象,比如各种个人或团体客户、企业、金融机构、潜在客户等。客户主题存储客户自身属性信息,且每个客户在行内的信息是唯一的。
产品主题:描述所有产品自有属性信息,包括产品分类、产品状态、产品管理信息等。该主题包含存款产品、贷款产品、理财产品、资金产品等行内自有产品,也可包括他行产品信息。产品主题目前包括存款产品、贷款产品、理财产品、保险产品、资金资管产品等及银行提供的非金融服务。
内部机构主题:指秦皇岛银行机构的内部组织和业务单元,如分行、支行等等。在内部机构主题中,更多的反映其作为内部组织机构的职能等特征;内部机构主题也包含了秦皇岛银行内部人员信息,如员工信息、柜员信息、客户经理信息等。
存款主题:描述一个金融机构吸收客户闲散资金、支付客户利息并为客户提供结算服务、账户管理服务的行为。该主题主要包括:存款账户基本信息、账户合约信息、账户限制信息、账户余额及利息信息、账户属性、客户经理揽储比例分配等。此外也包括存款账户发生交易的交易流水信息,存款账户的介质和凭证信息,如借记卡、支票等。
信贷主题:描述一个金融机构作为债权人为债务人提供有使用期限、需要付利息、并到期收回的资金的行为。信贷主题包括贷款申请、授信合同信息、客户授信额度、贷款合同信息、担保合同信息、贷款借据(账户)信息、贷款期限调整信息、抵质押物、还款计划、还款流水、贷款损失准备金信息、资产保全信息等。
理财主题:描述一个金融机构提供给的一种客户可以根据自己的财务状况在风险可以接受范围内实现资产增值的最大化的服务。包含了理财签约、风险评估、理财募集、理财份额、理财交易等信息。理财业务包括传统意义上的保本理财和非保本理财,也包括基金、保险等业务。
票据主题:描述金融机构经营过程中常常使用到的一种有价凭证,有纸质和电子两种介质,我国《票据法》中的票据包括汇票、银行本票和支票。该主题主要包括票据基本信息、票据承兑、票据贴现、转贴现、再贴现、票据质押等信息。
信用卡主题:由持卡人方便快捷地办理支付结算并形成相关消费信息的贷记账户。公务卡作为一种现代支付结算工具,属于信用卡范畴。信用卡主题包含了卡片基本信息、信用卡账户、信用卡申请、交易信息及信用卡账单、逾期催收信息等。
资金资管主题:描述了银行在公开市场或其他交易市场上与交易对手进行的各类金融活动时签订的协议。我行包含同业拆借协议、债券买卖协议、债券回购协议、债券借贷协议、即期外汇买卖协议、国库定期存款协议、信贷资产转让协议、衍生产品协议等。包括:我行资金资管包含拆放同业及买入返售、债券、理财直接融资工具、新增可投资资产、非标准化债权类资产、权益类资产、商品类资产、另类资产、公募基金等交易信息等。
财务主题:描述一个金融机构的内部账务情况,体现金融机构的经营状况,主要存储银行科目账务以及预算管理有关的内容,包括科目余额信息、会计分录信息、科目定义等。
渠道主题:描述的是当各种事件发生时,当事双方(主要是指客户和银行)进行交互和接触的手段及方法,通过它,客户与银行进行接触、购买产品、使用服务并交流信息。渠道主题包含渠道自身信息、渠道签约信息、渠道交易信息。
支付结算主题:指单位、个人在社会经济活动中使用票据、卡等凭证,通过汇兑、托收承付、委托收款等业务通过人行、银联、网联及其它支付机构进行货币给付及其资金清算的行为。我行的支付结算信息,包括银联、网联、大小额、超网结算信息,也包括同城结算等信息。
中间业务主题:本主题描述的中间业务是狭义中间业务,我行作为中间介质收取手续费为客户提供的代收代付服务,包括代收代付、非税、国库等信息。
五、辅助工具
统一数据交换平台:面向全行数据采集、交换、共享和开放的标准化的、规范的、高效的、稳定的、可控的数据服务总线,实现批量、准实时或者实时的数据交换要求,提升业务系统间多样化、可配置、易管理的非实时批量及准实时数据交换能力。包括内部各源业务系统结构化数据、半/非结构化数据和外部数据源,为数据平台提供数据服务。
数据资产管理平台:在数据生命周期的各个阶段(产生、处理、存储、应用、归档直至最终被删除),企业必须完全按照组织的业务需要进行处理、管控、保护和共享。数据资产管理平台包括元数据管理、数据标准管理、数据质量管理、数据资产地图等。数据管控始终贯穿数据平台的整个建设过程,需要规划数据资产管理平台的体系架构,分析梳理行内数据标准化、数据质量、元数据的管理流程,结合数据资产管理平台做好数据管理,提升数据质量。
六、实践思考
未来的时代是数字化的时代,银行的数字化转型是必然趋势。数据仓库技术能够为数据流分析提供科学的数据支撑,在进行精准营销、综合管理和风险控制时,帮助银行的各层级管理者更好的决策。中小银行因其特殊性,在构建数据建仓要注意以下几点:
第一,确立以业务价值为导向的原则。中小银行的业务对其发展至关重要,数字化转型的主要目的也是为了发展业务,而不是为了建平台而建平台,因此建设数据仓库的每个阶段都必须突出业务导向。
第二,确立数据养护原则。在信息时代,客户资源都体现在数据信息上,因此不论是横向截面数据还是纵向序列数据,在构建合理的数据仓库后,要做好后期的维护和经营。
第三,专注细分领域,聚焦优势资源。中小银行成长于细分领域,未来的发展仍然还在细分领域。因此,在构建数据仓库时要针对自己的优势客户群体,精心打造专业领域的数据仓库。