您好,欢迎来到五一七教育网。
搜索
您的当前位置:首页基于基因扰动及变分逼近技术的基因网络推断

基于基因扰动及变分逼近技术的基因网络推断

来源:五一七教育网
第43卷第6期 2013年11月 东南大学学报(自然科学版) JOURNAL OF SOUTHEAST I ⅡVERSITY(Natural Science Edition) Vo1.43 NO.6 Nov.2013 doi:10.3969/j.issn.1001—0505.2013.06.003 基于基因扰动及变分逼近技术的基因网络推断 董自健 宋铁成 袁 创。 ( 东南大学信息科学与工程学院,南京210096) (。淮海工学院电子工程学院,连云港222005) ( 理工大学医疗科技及信息学系,) 摘要:为了有效提高基因网络推断的精度,基于基因表达数据和基因扰动数据,将基因 网络建模为结构方程模型,并进一步转化为验证性因子分析(CFA)模型,然后使用贝叶斯方法 求解CFA模型参数.在贝叶斯分析中,为减少计算量,不采用常用的马尔科夫一蒙特卡洛抽样方 法,而是采用变分逼近技术对参数的联合后验分布进行因式化,并获得参数的后验包含概率分布 及参数的后验分布.同时使用重要性抽样技术对CFA模型的推断参数进行加权平均.仿真结果 表明,CFA模型和变分逼近技术是有效和可靠的.根据实验数据,使用所提算法推导了具有35 个基因的酵母基因网络. 关键词:基因网络;验证性因子分析模型;变分逼近;重要性抽样 中图分类号:Q78 文献标志码:A 文章编号:1001—0505(2013)06—1147435 Variational approximation inference for gene regulatory networks from gene perturbations Dong Z0ian ‘ Song Tiecheng Yuan Chuang ( School of Information Science and Engineering,Southeast University,Nanjing 210096,China) ( School ofElectronic Engineering,Huaihai Institute ofTechnology,Linyungaang 222005,China) ( Department of Healh Technoltogy and Informatics,the Hong Kong Polytechnic University,Hong Kong,China) Abstract:To improve the inference accuracy of gene regulatory networks(GRN),using both gene perturbations and gene expression data,GRN is modeled as a structural equation model(SEM),and further tranSformed into the confimatrory factor analysis(CFA)mode1.The Bayesian approach is used to infer the parameters of the regulatory networks.Instead of the Markov chain Monte Carlo (MCMc)method,the variational approximation method(VAM)is applied for its lower computa— tion cost,which factorizes the ioint posterior distribution of parameters,and obtaias the posterior in— clusion probability distribution and the posterior distribution of parameters.An importance sampling technique is then applied to obtain the weighted average of the CFA inferred parameters.Simulations are carried out to verify the effectiveness and reliability of the CFA model and the variational approx— imation.Based on the experimental data,the regulatory interactions among a 35 yeast genes network re identaified with the proposed VAM algorithm. Key words:gene regulatory network(GRN);confimatrory factor analysis(CFA)model;varia— tional approximation;importance sampling 基因网络(GRN)结构的推导对理解基因 功能和复杂疾病的致病原因至关重要.基因网 量的实验.由于计算技术和计算能力的快速提高, 现在通常不是单纯使用实验手段,而是根据有限的 实验数据,使用统计方法推断基因网络. 络的推断需要识别出基因之间的相互作用,而仅使 用实验方法确定基因之间的相互作用需要进行大 由于引入了扰动信息,基因扰动技术可有效提 收稿日期:2013-04-25.作者简介:董自健(1973一),男,博士,副教授;宋铁成(联系人),男,博士,教授,博士生导师,songtc@seu.edu.cn. 基金项目:国家自然科学基金资助项目(61271207)、江苏省自然科学基金资助项目(BK2011398)、江苏省高校优秀中青年骨干教师和校长 境外研修计划资助项目. 引文格式:董自健,宋铁成,袁创.基于基因扰动及变分逼近技术的基因网络推断[J].东南大学学报:自然科学版,2013,43(6):1147— 1151.[doi:10.3969/j.issn.1001—0505.2013.06.003] 1148 东南大学学报(自然科学版) 第43卷 高GRN推断的精度.基于基因表达数据,可以把 基因网络建模为图结构…,其中基因用节点 表示,节点之间的边表示基因之间的关系.另 外高斯图模型 、线性回归模型等 都可以用于 基因网络的推断.但这些方法的准确度都不 (2)作如下分解: yl ● /I1 ● ● : : : y= ● /l ● 力+ ● (3) : : : 高.结构方程(SEM)模型也可用于推断基因 网络 ,如Logsdon等 使用SEM对基因网络 进行建模,并使用Adaptive Lasso(AL.based)算法 推导网络参数.通过仿真,作者认为AL.based算法 y j LAN.j 解/l中参数,因此问题分解为 L 由于已知数据均在 和y中,所以可逐行求 优于已有的其他各种算法. 基于基因表达和eQTLs数据,本文把基因 网络建模为SEM结构.由于这2类数据均已知,故 不存在潜变量,因此本文把SEM模型转化为验证性 因子分析(CFA)结构,并进而简化为线性回归模型. 为降低算法对数据的敏感性,本文使用贝叶斯推断 方法代替常用的最大似然以及各种Lasso方法求解 线性回归模型;为了降低计算量,不使用通常的马尔 科夫一蒙特卡洛(MCMC)方法,而是采用变分逼近 方法(YAM)进行贝叶斯推断.仿真结果表明CFA 模型和VAM算法都是有效和可靠的.VAM算法的 性能较好,在误检率和检测率上都远高于AL—based 算法;与最大似然等方法相比,变分逼近方法无需准 确估计初始参数,对数据适应性较好. 1基因网络结构的CFA模型 假设有 个基因,Ⅳ0个标记,J7v个测量样 本.基因网络结构服从如下结构方程模型: Y=AX+BY+£ (1) 式中,y为N xN矩阵,其中y 『为基因k在第 次 测量中所获得的表达数据; 为Ng XNg矩阵,包含 所有的网络参数; 为Nq XN eQTLs数据矩阵,Ⅳ口 ≥ ;A为 X Nq矩阵,表示每个eQTLs对每个 基因的影响; 为Ng xN矩阵,其中 表示第 次 测量中基因k的表达误差. 假设基因自身不存在相互作用,因此矩阵 的对角元素值为0.另外,假设所有的eQTLs位点 已根据已有的方法确定出来,但是每个eQTLs的 影响未知,因此A中有Ⅳ0个位置已知的未知参 数,剩下的Ⅳ 一Ⅳq个元素都是0.不失一般性, 假设Ⅳ =Nq. 式(1)中所有未知参数都在 和A中,因此模 型可变为 Y=AO+ (2) 式中,A=[B A], =[y r.现在模型已变为 一类特殊形式的SEM模型,即CFA模型.将式 http://journa1.seu.edu.cn Yk=A +Yk k=1,2,…,Ng (4) 2 CFA模型的变量逼近推断 假设 矩阵稀疏,即 中大部分数据为0,因 此可假设A中所有参数服从均值为0的高斯分 布,且 服从N(O, I). 将式(4)转化为 D =∑ + k=1,2,…,Ng(5) 式中, ,为 的第 行参数,D=2Ng.现在问题转 化为一个标准的线性回归问题.如前所述,在贝叶 斯推断中,如果采用MCMC方法,在变量较多的情 况下,计算量将非常大.因此本文使用变分逼近替代 MCMC方法用于网络参数的推断.变分逼近技 术已得到很多应用,如Logsdon等 和Carbonetto 等 把该方法用于多位点的基因组关联分析. 引入一个二进制向量Z ={Z Z也,…,Z 。},用 于表示/l 中每个元素的取值情况.如果Z ,=1,则 以目以概率1不为零;如果Z村=0,则A 概率1为 零.定义参数组0=(z ,/l ),假设该参数组的先验 概率P(Z ,=1)=丌, f~N(0, ^2). 求解的目标就是根据已知数据计算以 的后验 概率分布,以及每一个以 是否包含在模型中的概 率,即P(z =l I y ,n).结合A 后验分布以及 P(Z ,=1 I , ),即可确定基因.『是否对基因k有 作用,以及系数的大小. 2.1参数后验概率计算 Bayesian推断需要计算后验概率P(0 l ,y , ‘ ),其中 是{7r, , 2^}的一组先验分布参 数值.该计算通常需要多重积分,计算量非常大. 根据变分理论_8 J,P(0 I , ,t, ’)一 q(A ,z ),且q(A ,z )可分解为 D D q(a ,Zk)=I-Iq(A灯,Zkj)=I-1q(A衄I Zkj)g(z ) k=l =1 (6) 其中,每个分项可表示为如下形式 J: 第6期 董自健,等:基于基因扰动及变分逼近技术的基因网络推断 1149 /Lw   /zkj,sk2 i I zkj)=akN(Akj[村…组合.为简化起见,假设重要性抽样 (t,‘ )为均 )m 、 匀分布,所以p(o‘ )=1/600,m=1:1:600. q(Z村=1)= 村 (7) 式(13)中的P(Yk l lf2,t,)很难计算,Carbonet— to等 使用Jessen不等式获得了其下界: I I根据变分逼近理论可得出迭代参数为 ,m 2 丽、(8) p(Y ln,u):一 Nl。g(2耵 )一 灯= (( )J一∑( ) 蛐)(9 % 等 石 丽 式(8)一(10)构成一个完整的迭代.在算法实现 中,可采用一种简单的迭代结束判断方式,即如果 连续2次迭代中产生的 差值很小,如∑( 一 h- ) < ,即可停止迭代.其中 是预设的一个 值,需要根据待求参数的精度要求及算法复杂度要 求而设定. 2.2基于重要性抽样技术的包含概率计算 为考察基因k和基因.『之间的关系,还需判断 每个参数( )是否包含在模型中,即计算 P(Z^,=1 l ,Yk)= Jp(Z f=1 l ,Yk,v)p(t,l力, )dv(11) 该积分计算非常复杂,需要近似计算.已知 P(Z =1 l2/,yt,0)=Ot材,为了计算Atf是否包含在 模型中,需要根据式(11)计算其后验概率.这里使 用重要性抽样,即 M p(z =1 I , ) m=1 ∑ w(v ’)(12) 式中,w(v )为重要性抽样系数, (Y I ,t,‘ )p(v‘ ) p(v‘ ’、 P( I , ‘ )p(v‘ ) (13) ( ‘ ’) 其中,1.1 ’为参数组(7r, , 2)的一组抽样点 ( , ’, ’);p( ’)为 , t,z 的先验分 布参数组(仃, , 2)在样本为 ’时所获得的抽 样值.这里假设P(Z村=1):7r,7r~beta(S ,a,b), 其中a,b为超参数,需根据数据情况设定; 一Ⅳ (0,ro I), 一gamma( ,G。,G ),其中G ,G6为 超参数,需预先设定;A f—N(O, 2d), 取自分布 a/(1+as ) ,a需要预设.在参数推导过程中,需 要对每个超参数输入一个参数抽样序列,比如对 beta分布,可取 =0.O1:0.O1:0.1;对gamma分 布,取S =0.1:0.1:1;而S^可取0.05:0.05:0.3. 因此,{t,‘¨,t,( ,…, ( ’}共有10×10×6=600种 2 一 2 :耄X.-al(、 “ D叫。g(等)一 c )log( )+ D警[1+1。g(轰)一 1(14) 式中, .x/.t 表示 和 两个行向量的点乘. 在计算时可使用这个下界代替P(Yk『力,13). 算法的整体思路是对每个参数组7.3 ’获得相应 的(7r,or , 2),然后代人式(8)一(10)进行迭代.迭 代收敛后,再根据式(13)、(14)计算相应的重要性 加权系数.在所有的u ’计算结束后,使用式(12)计 算后验包含概率.算法最后输出A 估计,即 A灯 ∑ w( ) (15) 算法具体过程如下: 输入:x,y,抽样样本序列{ , ,SA},以及 ‘ , ‘ , . 1根据式(2)计算n; 2从( , , )的联合分布中获得重要性抽样{”(”,…, V(M }及其均匀分布值{ (”( ),…,p(v( )}; 3 for k:1:Ⅳg(对参数矩阵逐行求解) 置t,="( ;令flag=1;根据式(8)计算 ; whileflag for =1:D 根据式(9)、(1O)分别更新 和 end J; 如果连续2次迭代中所产生的 差值∑( 一 ) < ,令flag=0,停止迭代. 根据( , , )的先验分布,令”= ( ,获得P (t,(m ) 根据式(13)、(14)获得重要性系数w(”( ); 根据式(12)获得后验概率p(z =1 l n, ); 根据式(15)计算网络参数A ; 3 仿真结果 令ⅣE表示 中边的数量,Ⅳm表示经算法推 导所获得的曰 中边的数量,Ⅳ;a。 表示存在于曰 但 不存在于 中边的数量,Ⅳ 。表示同时存在于 和 中边的数量,因此Ⅳ +Ⅳ = .检测率 (power of detection,PD)和误检率(false detection http://jouma1.seu.edu.ca 1l50 rate,FDR)定义如下: PD: ’E 东南大学学报(自然科学版) 第43卷 在检测率和误检率2个方面,VAM算法均优于 AL-based算法. ’IE ,FDR: 本文分别仿真了含有3O个基因的有向无环和 有向有环网络.每个基因节点平均有3条边,即ⅣF =4酵母基因网络的推断 本节使用VAM算法对一酵母基因网络进行 推断.数据来自对酵母菌株BY4716和RM11—1A 进行交叉实验所获得的1 12组基因表达数据,以及 基因标记数据 .数据包含5 727个基因.由 3.如果从节点 到节点k有边,则从(~1, 0.5)u(0.5,1)中均匀抽样;否则 ,置为0. 一eQTL中每个 以概率(0.25,0.5,0.25)从集合 {1,2,3}中抽取.测量噪声服从Ⅳ(0,0.1)分布. 不失一般性,设A为单位阵.y通过式(1)计算 获得.在仿真中,如果算法返回的P(Z ,=1 I力, Y )>0.95,且A ,>0.10,则认为从节点.,到节点 k之间有一条边,其他情况均判为2个节点之间 无关系. 本文主要与AL.based算法在检测率和误检率 上进行性能比较,图1给出了仿真结果.可以看出, 1 0 金0 0 0 抽样数量 (a)有向无环图的检测率 O.6 重 ; O.3 1 抽样数量 (b)有向无环图的误检率 抽样数量 (C)有向有环图的检测率 : 。 。 抽样数量 (d)有向有环图的误检率 图1 VAM算法在30个基因网络中的性能 http://journa1.seu.edu.cn 于测量数据样本有限,且存在一定的误差,不可能 用这些数据较为准确地推断出全部5 727个基因 之间的关系,因此需要使用预处理技术,选择 具有较强表达数据差异的基因进行分析_5j.本文 采用Logsdon等 提供的经过预处理的基因表达 数据以及相应的eQTLs数据进行网络参数推导. 这些数据共包含35个基因的相关测量数据,具体 酵母基因名称见图2. NUP60 图2部分酵母基因网络结构图 所推导的网络结构如图2所示.其中8个 基因与其他基因之间没有相互关系,其他27个基 因之间有43条有向边.实线表示基因之间是正调 控,共18条,其中ORC5与NUP60之间有相互作 用的正;虚线表示负,共25条边. 为了验证算法推导的结果,本文使用YEAS— TRACT网站的Generate Regulation Matrix工 具¨ ,得到了包含上述35个基因的网络图, 其中包含3个基因对,分别是HAL9 H1M1[13 3,PHD1YEL073C¨ ,PHD1 FYV6 1 ,这些基因关系都经过已有实验验 证.VAM算法推导出的43条边中,包含了HAL9 HIM1和PHD1YEI ̄73C这2组关 系对. 第6期 董自健,等:基于基因扰动及变分逼近技术的基因网络推断 1151 5 结语 本文把基因网络建模为没有潜变量的验 证性因子分析模型,并把模型分解为线性回归模 型,逐行求解.在处理线性回归模型时,首先采用变 分逼近技术推导参数的后验概率分布,在此基础 上,使用重要性抽样技术计算参数包含在线性模型 中的后验概率,并得出网络参数的加权平均.将 VAM算法与AL—based算法进行比较,验证了 VAM算法的有效性和可靠性.最后使用实验数 据,针对一种酵母基因网络进行了推导,得出 了一个具有43条边的参考基因网络结构. 参考文献(References) [1]Friedman N.Inferirng cellular networks using probabi— lisitc graphical models[J].Science,2004,303 (5659):799—805. [2]Schafer J,Swimmer K.An empirical Bayes approach to inferring large—scale gene association networks[J]. Bioinformatics,2005,21(6):754—764. [3]Schafer J,SWimmer K.A shrinkage approach to large— scale covariance mawix estimation and impfications for functional genomics[J].Statistical Applications in Ge— netics and Molecular Biology,2005,4(1):1175— 1189. [4]Xiong H,Choe Y.Structurla systems identiifcation of genetic regulatory networks[J].Bioinformatics,2008, 24(4):553—560. [5]Logsdon B A,Mezey J.Gene expression network re— construction by convex feature selection when incorpora— ting genetic perturbations[J/OL].PLoS Computational Biology,2010,6(12).http://www.ploscompbio1. org/article/info%3Adoi%2F10.1371%2Fjouma1.pcbi. 1001014. [6]Logsdon B A,Hoffman G E,Mezey J G.A variaitonal Bayes algorithm for fast and accurate mulitple locus ge— nome—wide association analysis[J/OL].BMC Bioin— formatics,2010,11.http://www.biomedcentr1a.com/ 1471—2105/1 1/58/. [7]Carbonetto P,Stephens M.Scalable vairational infer- ence for Bayesian variable selection in regression,and its accuracy in genetic associaiton studies[J].Bayesian Analysis,2012,7(1):73—107. [8]JordanMI,GhahramaniZ,JaakkolaT S,eta1.Anin— rtoduction to variational methods for graphical models [J].Machine Learning,1999,37(2):183—233. [9]AtitsaH.Indeepndentfactoranalysis[J].NeuralCom— putation,1999,11(4):803—851. [10]Beal M J.Variational algorihtms for approximate Bayesina inference[D].London:University of Lon— don,2003. [11]Strnager B E,Forrest M S,Dunning M,et a1.Rela— itve impact ofnucleotide and copy number variation on gene expression phenotypes[J].Science,2007,315 (5813):848—853. [12]Knowledge Discovery&Bioinformatics Research Group.YEASTRACT[EB/OL].[2013-03—10].ht. tp://www.yeastract.com/index.php. [13]Lee T I,Rinalid N J,Robe ̄F,et a1.Trnascriptional regulatory networks in Saccharomyces cerevisiae[J]. Science,2002,298(5594):799—804. [14]Bomeman A R,Leigh—Bell J A,Yu H,et a1.Target hub proteins serve as master regulators of development in yeast[J].Genes and Development,2006,20(4): 435—448. http://journa1.seu.edu.cn 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 517ttc.cn 版权所有 赣ICP备2024042791号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务