互联网资产证券化平台项目建设方案
贵阳高AA科技有限公司,其基于金融大数据的互联网资产证券化平台的核心技术来自团队长达十年的海外一流金融机构工作经验总结和研究。开发的具有自主知识产权资产证券化技术平台在世界上处于绝对领先的地位。AA对资产证券化业务核心功能、核心算法有非常深的理解,公司董事长兼首席方案架构师杜衡(见介绍)为核心的系统实施团队具有多年国外领先银行系统的成功实施经验和成熟的实施方法。该公司目前在如下几个方面,拥有世界领先的算法和技术,并拥有澳洲的专利(澳洲专利号:AU201301072)目前该套技术在国内还属于绝对空白。项目建设主要涉及的是主要技术和方案路线。
(一)主要技术
1.基于实时统计分析算法的海量资产管理数据模型。该数据模型能整合海量资产,形成历史数据积累,对资产证券化静态池建设以及违约率分布等重要的评级指标,有非常显著的帮助。
2.基于复杂资产与抵押关系的资产池统计计算能力。该数据模型不仅能处理简单的一对一资产抵押关系,而且能处理复杂的多对多资产抵押关系。基于该模型在国外银行成熟的应用经验,对金融产品多样化,以及资产关系复杂化有非常良好的前瞻性和可扩充性。
3.基于复杂资产筛选条件的商务逻辑引擎。该引擎不仅仅能针对简单的资产属性进行筛选定制,同时能处理非常复杂的资产风险相关,
资产抵押相关,资产担保相关等多种筛选条件,该筛选条件符合国外评级公司的需求,对系统实现的前瞻性和可扩充性有非常大的帮助。
4.基于蒙特卡罗算法的资产池统计属性目标化算法。该算法能在保持资产池原分布的基础上,改变资产池的统计属性,从而更为优化资产池的评级水平以及降低银行资产负债表的风险水平。
5.高度自动化的整合引擎和高效的算法。该公司有着多年对高效大数据算法的实现经验,利用该公司的技术,整个资产证券化产品从资产池提取,筛选,资产池分割,资产池目标化,到最后形成可销售的资产池,总共自动化过程仅需要20分钟,将大大提高资产证券化业务的产品流动性和效率。
(二)技术方案
1、资产证券化
AA资产证券化解决方案是基于商务智能的敏捷架构设计与分布式计算技术专利充分整合发起方内部资产全景视图,并可在线对千万级资产数据进行各种数据分析和数据挖掘。同时该设计方案能够最大程度上的保证系统架构的灵活性和前瞻性,降低和其它系统的耦合度,使未来的维护更灵活,更简单。采用AA先进的现金流分析和设计引擎,能准确的对资产证券化产品进行评级测算,定价,流动性管理等各种定量分析,充分提高资产证券化产品的收益能力。AA资产证券化解决方案,旨在为发起方的资产证券化产品提供从资产池提取,到产品流动性分析,存续期管理在内的所有功能。
2、金融大数据商务智能
AA大数据与商务智能解决方案是基于商务智能在线分析能力,结合AA分布式计算技术专利,对海量数据进行实时的统计,分析,数据挖掘,及数据展现。其数据分析,数据挖掘能力,在金融大数据应用领域,例如征信,风控,资产证券化,资产智能处理等各方都得到了高效的应用。
AA大数据商务解决方案,可以跨平台,支持各种客户端,包括手机,电脑,平板等设备同时对商业智能模型进行访问。基于分布式计算技术,以及数据快照技术,旨在云端满足用户对数据分析,数据处理以及数据挖掘的全方位需求。同时基于智能处理和分析结果,对数据的整合,清洗,特别是数据的交易,提供全方位的支持。
(三)技术路线
为了实现资产条数在百万级别的资产池的快速有效的度目标化计算,我们采用了主成分分析(PCA)降维方法以及K-均值聚类方法对原始资产进行处理。整个目标化流程可以分为如下三个步骤。
步骤一:资产池统计降维
客户选取了N个目标化条件,例如加权平均贷款与资产抵押比率(LTV),加权平均账龄,贷款利率,贷款区域等等,构成了N个维度。对于资产条目在百万级别的客户而言,在N较大时计算量较大。因此我们考虑对资产池目标化条件进行降维,以去除统计意义上的冗余目标化条件,取得计算速度和准确性的平衡,提高目标化效率。 在诸多统计降维方法中,主成分分析(PCA)是一种简单有效的基于无监督学习的降维方法。它的核心是通过计算样本数据的协方差矩阵
来分析各个维度对于统计属性的贡献度,并通过协方差矩阵的特征值分解来获得最具统计意义的降维特征空间。在此降维后的特征空间中进行信贷数据的聚类和拟合,将大大提高计算效率。 针对大数据资产池的PCA算法实现如下:
1.计算目标化属性协方差
对银行整体资产中的每条信贷记录,根据选定的N个目标化属性,可以记为N维向量x。则对于所有m条原始资产,可以计算出x的协方差矩阵如下:
1
Σ=∑(x(i))(x(i))T
mi=1m
此处对 x已经进行零均值化和归一化处理。这是一个N×N的矩阵,代表了原始样本体现出来的N个目标化属性之间的相关性。
2.对协方差矩阵进行特征值分解
计算出协方差矩阵∑ 的特征向量,按列排放,而组成矩阵U:
|U=[u1
|
此处,u1是主特征向量(对应最大的特征值),u2是次特征向量。以此类推,另记λ1,λ2,…,λn为相应的特征值。u1,u2乃至un互相正交,具有互不相关的统计意义。每个特征向量都代表了使得资产的属性分布最具有统计意义的坐标轴,其对应的特征值即为所有资产在该坐标轴上投射的信息量的量化表示。
3.选择特征向量个数进行降维
||
u2…un] ||
一般而言对于国内信贷资产的各项统计属性,对应于最大3或4个特征值的特征向量构成的空间通常可以包含资产池80%以上的统计信息。如果我们选择前两个特征向量u1和u2,我们可以把x用(u1,u2)基表达为:
xrot
Tu1x
= Ux=[T]
u2x
T
这是一个2行m列的矩阵,即对于我们选出来的主成分u1和u2,m条原始N维资产就降维(投影)到2维表示。在这个变换的过程中我们保留了最具统计意义的两个投影维度,而忽略其他较弱的成分。
特征向量矩阵U具有正交性,即满足UTU=UUT=I,所以若想将旋转后的资产记录xrot 还原为原始资产数据 ,将其左乘矩阵U即可:
x=Uxrot
目标化属性的协方差矩阵和主特征向量是在银行整体资产样本的基础上计算得到的,代表了对该银行该类信贷资产而言最优的目标化维度空间,可以一次计算而在较长的时期内重复使用,而无需每次对新增的资产进行重复计算。
矩阵相乘在计算机上的运算速度较快,因此在得到主特征向量矩阵的基础上可以实时地对资产数据进行目标化前和目标化后的转换和对比。
假设我们将10个目标化统计属性通过PCA主成分分析方法减少至3个变换维度,则可以将目标化计算时间缩短到原来的1/3到1/4。
步骤二:信贷资产聚类(区间化)
步骤一中的降维处理降低了计算量,为步骤二的快速计算奠定了基础。为了对资产池进行目标化,我们需要对每个目标化维度进行区间化,以获得足够细分的备选资产区间,并且每个区间内的资产具有目标化属性同质性,而不同区间之间的资产具有目标化属性分离性。对数据样本进行无监督学习聚类的算法有很多种,针对信贷资产数据的特点,我们采用了K-均值算法对资产根据降维后的统计属性进行聚类。K-均值算法的优点是迭代逻辑简单,收敛快。其缺点是容易收敛为局部最优解。因为信贷资产的统计属性数值具有明确的实际意义,我们可以通过预先设定聚类中心的方法来进行优化,改善聚类的结果。
如上图所示,对于降维后的K维(即步骤一中得到的2维)资产数据,对每一维度分别计算分布函数,并对该维度上的分布曲线进行剩余本金额(Current Principal Balance)加权,并按照指定的区间数目M(如20个区间)进行切割,使得每个区间所得的曲线下面积均等。即对给定的区间数K,以及其中任一区间(ai,bi),有:
∫Probability(x)×CurrentPrincipalBalance
aibi
11
=∫Probability(x)×CurrentPrincipalBalance M0
得到每个维度上的区间划分后,对每个区间取中值作为该维度上的初始聚类中心,并在单个维度上形成M个初始聚类中心,即形成特征空间M个聚类中心的其中一维。将所有特征维度整合后,形成M个K维(例如步骤一中得到的2维)初始聚类中心。这样在后面的配对和封包过程中能够在所有维度上最大限度的拟合原资产池的分布。 得到初始的M个聚类中心后,需要根据用户设定的目标化值,增加一个用户预设聚类中心P用于聚合最符合用户期望目标值的资产:
P= (x1,x2,…xk)
因此最终的聚类个数为M+1。
采用K-均值方法进行迭代聚类的步骤如下:
1.设定评价函数与相似度准则
采用误差平方和的相似度准则,可以得到每个聚类的聚合度评价函数:
m
J(c,
μ)=∑‖x(i)−μc(i)‖
i=1
2
上式中m为此聚类中的样本资产数量,μc为此聚类的中心(其值会在每次迭代中发生变化)。假设我们要将样本集划分成M+1类,则总体聚合度评价函数可以表示为:
M+1
m
E=∑∑‖xi−μj‖
j=1xi∈ωj
2
我们迭代的目标是要将整体资产池的总体聚合度评价函数将至最低。
2.设定迭代终止条件
在实际运算中一般采用以下几条终止条件,可视情况进行组合判
断:
a. 重复一定次数迭代后聚类结果不发生变化 b. 重复一定次数迭代后总体评价函数值不下降 c. 达到最大迭代次数Max
由于我们通过区间划分设定了初始聚类中心,迭代的时间复杂度是线性的,并且最优时间复杂度常数是1/(M+1),M+1为聚类个数。
3.进行迭代
单次迭代的步骤如下:
(1)根据此次迭代的M+1个初始聚类中心,对整体资产池中的每一个剩余样本,计算其与各聚类中心的距离,并将其归类到最近的聚类中心。
(2)完成样本归类后的M+1个聚类,重新计算其各自聚类中心,即成为下一次迭代的初始聚类中心。
(3)重复步骤1)进行下一次迭代,直至满足2中设置的迭代终止条件。
步骤三:资产区间匹配
聚类后形成了对原资产池分布具有高度拟合性、可用于资产封包的M+1个备选资产聚类包。在封包过程中,需要对资产区间进行搭配组合,在满足目标化要求的前提下使销售到信托中的资产具有与原资产池相似的分布,从而避免了发行机构的资产负债表风险升高。 将M个基础聚类与目标聚类P之间的距离排序,并按照距离从大到小的顺序链接到用户目标聚类P之后,并首尾相接形成循环链表的结构。
即聚类M是最远离目标聚类的类别,聚类1是最接近目标聚类的类别。 下图列出了初始状态下每个备选资产聚类包中的信贷资产数量。其中OP为从目标聚类中选出的符合待销售资产总额要求的资产数量。为了实现资产的搭配销售,我们需要在满足目标化可接受容错范围的前提下,从远离目标聚类的类别中挑选资产与目标聚类中的资产进行置换。置换顺序是从远离目标聚类的类别中(如聚类M,M-1)开始挑选资产向目标聚类中进行置换,如果置换后结果超出容错范围,则移动一个位置从稍接近目标聚类的区间中选取资产。从目标聚类中置换出的资产将会进入到下表的远端,即最靠近目标聚类的类别中。注意将最远离目标聚类的类别放置于链表中最接近目标聚类的位置,是为了程序循环计算的方便。
目标聚聚类M(最聚类M-1 … 类 OP
目标聚聚类M 类 OP−1+1
目标聚聚类M 类 聚类M-1 … 聚类3 聚类2 聚类1 OM−1 OM−1 O3 O2 O1+1 聚类M-1 … 聚类3 聚类2 聚类1 远) OM OM−1 O3 O2 聚类3 聚类2 聚类1(最近) O1 OP−2+2
OM−1 OM−1−1 O3 O2 O1+2 目标聚聚类M 类 OP−3+3
目标聚聚类M 类 OP−Y+X OM−XM OM−1 聚类M-1 … 聚类3 聚类2 聚类1 OM−1−2 O3 O2+1 O1+2 聚类M-1 … 聚类3 聚类2 聚类1 OM−1−XM−1 O3+Y3 O2+Y2 O1+Y1 经过一定次数的迭代置换后,目标聚类中有X条资产换入,Y条资产换出。置换入的资产主要来自于链表的近端(远离目标聚类的类别),置换出的资产插入到链表的远端(靠近目标聚类的类别)。最终目标聚类中的资产即为可封包的资产,而迭代后的聚类1到聚类M可立即用于下一次的封包操作。
经上述聚类和区间匹配的迭代过程之后,得到的目标化资产池即达到了目标属性要求,同时保证了原有分布。以下两图所示为目标化资产池LTV与账龄分布曲线与原资产池分布的对比。