
技术篇:可应用于金融的科技探索
Technology Part:Technology Exploration Applicable to Finance
第一章 大数据技术及其应用
沈志勇[1]
摘要:2018年,大数据技术在金融领域的应用更加成熟,但也遇到了一些挑战。本章围绕数据的生产与流转等简单介绍了大数据技术近期的进展,并针对大数据技术面临的隐私强监管背景,介绍了相应的技术举措与技术突破方向。
关键词:大数据技术 数据隐私 企业知识图谱
2018年,金融科技受到了前所未有的关注,其中大数据技术也越来越受到金融机构与相关企业的重视,不仅体现在对大数据技术的理解与掌握越来越深刻,而且其应用范围也越来越广泛。然而,在大数据技术在金融领域的应用渐渐走向成熟与落地的同时,也遇到了更多的挑战。具体而言,一方面,如何扩展数据来源,打通数据孤岛,提升数据流转效率,高时效、高收益地利用数据成为业界最关心的问题,因此在整合数据以及促进数据流通方面有很多新的技术理念应运而生。另一方面,数据隐私成为广大用户日益关心的问题,各国政府纷纷立法保护公民的数据隐私,企业也日益珍视自身拥有的数据的价值,数据作为核心资产受到更加严密的保护以防控滥用与流传。
上述冲突,即获取和挖掘数据的技术能力的提升与企业及个人日益增强的数据权益和隐私保护意识之间的矛盾,在包括金融业在内的全行业都在发生。金融业数字化程度高,从业人员的数据素养也高,是大数据技术应用的先行领域,也是企业与用户更加重视隐私的领域,因此技术的发展与产生的反思相较于其他领域表现得更加突出。本章主要围绕看似冲突的两个方面展开阐述,有关大数据技术的基本介绍及其在金融领域的应用在上一年度的报告中已经做过简单的介绍,此处不再赘述。
一 金融科技领域大数据处理与分析技术的进展
我们先简单介绍一下大数据技术在金融领域的最新应用趋势,主要包括数据生产技术、数据流转技术、数据存储与计算技术、数据分析技术等。
(一)数据生产技术的进展
人工智能与物联网技术的发展大大拓展了数据获取的广度和深度,提升了多媒体与文本数据的可用性,为金融领域提供了更多的所谓“另类数据”(Alternative Data)。
金融信息载体如市场信息披露文件、财务报告等,往往是以PDF等电子文档格式发布的,识别、提取和分析海量的金融文档需要用到人工智能中的光学字符识别(OCR)技术,将图像化的信息转化为表格或者文字等更容易被机器利用的数据类型,提供给数据驱动的诸如量化投资、风险管控之类的系统。
人工智能中的自然语言处理(NLP)技术,尤其是知识图谱(Knowledge Graph)分析,能将海量的以自然文本为载体的信息,如新闻、专利、评论等,结构化为投资模型所需的各类因子,甚至做成指数产品或者发行大数据指数型基金等。
物联网(IoT)技术在近年来得到了突飞猛进的发展,通过传感器采集物理世界的数据,对交通物流、园区办公等场景进行监控,并对后期的数据进行分析,为供应链金融、园区金融等新的金融模式提供了数据支撑。
(二)数据流转技术的进展
数据孤岛现象的存在是大数据技术应用与发展的障碍。金融领域由于监管政策以及其他客观因素的存在,更容易形成数据孤岛。孤岛间的数据流转主要有三种方式:一是通过纸质的单据票据流转再由人比对与录入,二是由专人进行轮询采集发布信息,三是填报某些电子单据。这几种方式都降低了已经高度数字化的金融行业的效率,也带来了繁复的劳动。
前文提到的OCR技术,除了可以提升数据的可用性外,还可以通过对单据票据的识别,提升数据流转的效率,同时通过自动比对纸质单据票据上的信息与系统内的电子信息,提升数据的可靠性。
机器人流程自动化(RPA)技术近年来发展迅速,它并不是一个真实的、肉眼可见的机器人,而是流程自动化服务软件产品,可模拟人在电脑上不同系统之间的操作行为,替代人在电脑前执行有规律且重复性高的办公流程。
以证券业中的数据月报业务为例,它是对其他券商的财务情况进行分析的业务。每月初,员工需要轮询同行券商披露的上月财务报告,从中提取上月末的收入、净利润、净资产等数据,按照既定的格式进行汇总整理并制成报表。这可以理解为从各个证券公司的财报“数据孤岛”中,“人肉”搬运数据,整个过程机械、枯燥而乏味,甚至有时因为数据更新不及时,需要人“值守”等待,而且人为操作难免会发生差错。如果用一个不知疲倦、7×24小时待命且不易犯错的机器人来完成上述任务,可以大大减少工作量甚至减少人力投入。RPA就是这样一种技术。
(三)数据存储与计算技术的进展
近年来金融数据的存储在硬件层面没有太大发展。而在软件层面,随着“互联网+”概念的深入人心,银行等业态的业务越来越零售化(更重视C端客户),投资等领域越来越重视多源异构数据的采集与分析,以及各类有高时效性要求的数据流式计算的场景需求。金融领域开始越来越多地利用互联网,选用诸如Hadoop等分布式数据存储与分析架构,以及StreamSet等流式数据处理框架,以满足新的大数据分析的需求。
在数据的计算方面,基于GPU以及GPU集群等硬件加速方法的多媒体与自然文本数据的分析技术,在深度学习建模与应用中起了很大的作用。FPGA等元件因其灵活性,以及ARM架构凭借其相较于传统X86架构的低能耗与出色的多核性能,在提升数据的计算效率上发挥着越来越重要的作用。
(四)数据分析技术的进展
数据分析的基础技术,尤其是机器学习的基础技术在短期内没有大的进展。在提升机器学习技术的易用性方面,出现了越来越多的自动机器学习技术,如谷歌的AutoML、百度的EasyML等,这类技术针对用户数据能够自动获得最优模型和最优超参数组合,进而基于少量数据就能获得出色性能和模型效果。这让金融领域非机器学习相关专业的技术人员甚至业务人员也能方便地进行高阶的大数据分析。
二 个人数据强监管背景下的技术发展新趋势
大数据圈流行一句话,“关于个人的数据越来越私密,关于企业的数据越来越透明”。这句话形象地反映了数据技术发展的两大趋势。下面要介绍的技术,不全是最新的技术,但在当前数据隐私保护的态势下,显得日益重要。
(一)针对个体隐私保护的大数据技术
除了简单的将个体ID通过散列技术等方式匿名化以外,还有更多高阶的保护数据隐私的数据分析技术。
1.隐私保护数据挖掘技术
隐私保护数据挖掘(Privacy Preserving Data Mining,PPDM)是指采用数据扰乱、数据重构、密码学等技术手段,在保证足够精度和准确度的前提下,使数据挖掘者在不触及实际隐私数据的同时,仍能进行有效的挖掘工作。其目的就是通过对原始数据或者挖掘算法进行某种改进,在不向外界泄露隐私信息的同时,发现原始数据的某些统计规律或隐含的知识和规则。
2.差分隐私技术
假设一个受信任的金融机构或者金融服务机构持有涉及众多个人信息(如银行交易、证券账户余额或定位等)的数据集,要想提供一个全局性的统计数据,令人难以想象,因为即使提供有关数据的综合性统计也可能揭示一些涉及个人的信息。此外,只是将姓名等采取乱码化、匿名化手段处理也会遭遇隐私挑战,通过链接两个或多个分别进行无害化处理的数据库来识别个人信息时,各种匿名化的特殊方法都会失效。而差分隐私(Differential Privacy)就是为防护这类统计数据库脱匿名技术而形成的一个隐私框架。举例来说,在Netflix等著名推荐系统大赛的训练数据中,所有客户ID已用随机分配的ID替代。有人将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及部分用户的身份信息。还有人将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连,找到了美国马萨诸塞州州长的病历。
上述反隐私的攻击被称作“差分攻击”,简单来说,就是对发布的100个人的信息以及另外99个人的信息进行比对之后获取第100个人的信息。差分隐私的核心思想是:对于差别只有一条记录的两个数据集,查询它们获得相同值的概率非常接近。这样就保护了第100个人的隐私。
3.安全多方计算与联邦学习
安全多方计算(Secure Multi-Party Computation)最早由华裔图灵奖获得者姚期智教授表达为百万富翁问题:两个百万富翁想知道他们两个谁更富有,但谁都不想让对方知道自己财富的任何信息。在双方都不提供真实财富信息的情况下,如何比较两个人的财富多少?
解决参与各方在无可信第三方的情况下保护隐私的协同计算问题,安全多方计算能够在得到正确计算结果的同时不泄露各输入值给其他成员。每个参与方除了计算结果外得不到其他方的任何私有信息。安全多方计算在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。主流安全多方计算框架的核心采用了加密电路和不经意传输等密码学技术,近年来也引入了区块链技术。
针对复杂的跨多方机器学习问题,微众银行提出了联邦学习(Federated Learning)的概念。在现有法规下,不同的金融机构是很难将双方数据加以合并并针对风控、营销任务进行大数据和机器学习建模的。联邦学习希望做到各个企业的自有数据不出本地,通过加密机制下的参数交换方式,即在不违反数据隐私法规的情况下,建立一个虚拟的共有模型。这个虚拟模型就像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。最终建好的模型在各方仅为本方的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富裕”的策略,因此叫作“联邦学习”。
(二)企业大数据技术的进展
随着个体隐私保护越来越严格,营销、风控等大数据技术的资源和能力被更多地迁移到与之相似的企业大数据分析上,包括企业与相关实体间的关系分析、生产要素知识的图谱化刻画、企业的监管合规等。
1.企业相关的知识图谱
知识图谱是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边表示实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
以企业以及企业的“董监高”等核心人员为实体节点的图谱是最典型的企业知识图谱。这类图谱的构建通常基于工商部门的公开信息,以及从公开网页上利用信息抽取(Information Extraction)技术分析得到的企业和相关个人信息及其相互关系。另外,企业相关的涉诉以及舆情也会补充到企业知识图谱中,作为更丰富的企业画像与刻画。实体类型也可以是生产要素,如原材料、零配件等其他更丰富的类型。
企业相关度知识图谱在金融领域得到了广泛的应用,已经成为很多金融机构必备的大数据工具,被广泛地应用于风控、投资等领域。
2.监管与合规科技中的大数据技术
监管与合规科技也是近年来的热点。金融机构越来越多地利用数据驱动的风险管理、合规管理,运用大数据技术评估和量化风险。
利用大数据的存储与计算能力,能够拓宽数据覆盖的深度与广度,降低监管成本,主要用于监管的全面风险管理、反洗钱、内控等领域。基于大数据的全面风险管理包括金融机构在市场风险、流动性风险、操作风险、信用风险、声誉风险等传统风险领域进行的以数据为基础的管理。
结合流式数据处理技术,不仅能够提升金融机构对异常交易监控、反欺诈等风险的决策效率,而且能够提高对突发舆情等风险反馈的时效性。交易所可运用大数据平台、实时流数据处理技术重构市场监察系统,在业务数据实时监控、风险预警指标构建、历史数据统计分析、客户持仓行为分析、交易行为模式分析、监察报告编撰等方面实现实时风险计量与管控,确保事前、事中风控的时效性。
利用企业知识图谱等大数据技术,还可以进行更加复杂的穿透式与全面性监管。例如,证监会提出实施资本市场大数据战略,推动建立人力和科技深度融合的监管新模式。利用大数据、人工智能等技术,在行政审批、打击违法违规行为、上市公司监管等工作环节提质增效。提升金融风险的甄别能力,实现实际控制人检测等穿透式监管以及舆情风险管控等全面性监管。
参考文献
Mendes et al.,“Privacy-Preserving Data Mining:Methods,Metrics,and Applications”,IEEE Access,June 2017.
Vijay et al.,“Optical Character Recognition(OCR)”,International Journal of Research in Engineering,Science and Management,Vol.1,Issue 9,September 2018.
Wang et al.,A Brief Survey on Secure Multi-Party Computing in the Presence of Rational Parties,Springer JAIHC,December 2015.
[1] 沈志勇,博士,招商局金融科技有限公司副总经理兼首席创新官,曾任百度云首席数据科学家,百度研究院大数据实验室副主任,惠普中国研究院研究员。长期从事大数据与人工智能技术在各领域的研发与应用。