项目名称: 基因组生物信息学分析的系统新算法研究及其应用
推荐单位: 天津市
项目简介: 本项目属于生物学一级学科下属的生物信息学和基因组学领域,是一门学科高度交叉的研究领域。人类及模式生物基因组等计划的快速进展积累了大量的DNA序列信息。本项目以近十年的努力,致力于基因组序列分析的新算法研究与应用,提出了基于几何学途径的基因组序列分析的4个新算法,即:基因识别;GC轮廓图;差异曲线及基因组段落化算法。这4个算法相互独立又相互印证与协调,构成了一个内部和谐的系统的算法集合。
本项目利用这4个新算法对大量基因组序列进行分析,研发了适用于细菌、古细菌、病毒、噬菌体以及酵母基因组的基因识别软件,它们已经被国内外学者应用于许多新测序基因组(如细菌,噬菌体及SARS冠状病毒基因组等)的注释。论证了人、小鼠、鸡和拟南芥等生物基因组Isochore结构的存在性,制定出人类基因组在DNA序列水平上的Isochore结构图谱。根据GC轮廓图算法提出了识别细菌与古细菌水平转移基因组岛的系统方法,并识别出一些重要的基因组岛。利用差异曲线算法和基因组分段算法在国际上首先预测出硫磺矿硫化叶菌具有3个复制原点及它们的准确位置。由于原核生物长期被认为只具有单一的复制原点,所以该预测引起广泛关注并很快被实验所证实。
本项目从1998年元月开始至2006年12月为止经历了近10年的努力。先后发表SCI论文54篇,包括5篇 Bioinformatics, 4篇 Nucleic Acids Research 以及 Nature Biotech, Genomics 等本领域重要刊物,累积影响因子(按2005年JCR报告)达208.7点。被SCI刊物引用489次,其中他人引用355次。刊物Physiol. Genomics 曾专门刊发2页的评论文章,对GC轮廓图算法及其在水平基因转移研究中的贡献予以积极评价。受邀在重要国际刊物撰写综述论文2篇;被邀在国际会议上做大会报告3次。被近20种国际刊物邀请为审稿人,评审论文数十篇。
主要发现点: 核心发现点:本项目基本属于基因组研究方法学上的创新,在Z 曲线(一种DNA序列的等价三维表示)的基础上发明了四个新算法,并用其对大量生物基因组进行分析,发现了一些较重要的生物学新知识。
1、基因识别算法。我们发现蛋白质编码序列和非编码序列的Z曲线的三维及多维空间特征完全不同,可利用这一特点对其进行识别。这是一项全新的,基于几何学的方法,识别准确率高而伪正率较低,尤其对于高GC含量的微生物基因组表现尤为优秀。此外,它还具有参数少、运行速度快,同样适用于大、小各种基因组等优点。这一新算法已成功应用于单细胞真核生物(如酵母)[1]、细菌与古细菌[2]、病毒与噬菌体基因组的基因识别[8,9],(计算生物学;计算基因组学;细菌学)。
2、基因组GC含量无窗口计算方法(累积GC轮廓图算法)。传统的GC含量窗口计算方法不能精确反映基因组GC含量的局部突变位点,而它们往往具有重要生物学意义。我们定义在基因组中某一点的GC含量正比于基因组Z曲线的z分量在该点处的导数, 从而使GC含量在基因组处处都有定义, 并能精确显示基因组GC含量的突变位点。这一算法广泛应用于原核生物基因组的水平基因转移研究,识别出一些具有重要功能的基因组岛[4],并发现基因组岛的获得有两种模式:单纯地插入;或插入同时伴随原基因组部分基因簇的丢失。这两种模式被认为在微生物进化中具有普遍性的意义[3]。该方法还被用于多种真核生物基因组Isochore结构研究,并制定出人类基因组在DNA序列水平上的Isochore结构图谱[6](计算生物学;细菌学;计算基因组学)。
3、 RY, MK, GC 和AT差异曲线算法。DNA序列的碱基可分为嘌呤(R)、嘧啶(Y)、氨基(M)和酮基(K)四种类型。而Z曲线的x和y分量和它们的线性组合可表示RY, MK, GC和AT沿序列的分布,分别称为RY,MK,GC和AT差异曲线,它们的突变点往往对应于基因组的复制起始和终止位点。针对这四种差异曲线设计了求其突变点的具体算法,并成功地应用于预测多种微生物基因组复制原点[5,6](计算生物学;细菌学)。我们在国际上首先预测硫磺矿硫化叶菌基因组具有3个复制原点及它们的准确位置。由于原核生物长期被认为只有单一复制原点,所以该预测引起广泛关注并很快被实验所证实[5](细菌学)。
4、基因组分段算法。由Z曲线导出基因组序指标的概念,该指标可以很好的反映基因组序列的有序程度及碱基组成的突变。在序指标的基础上,我们发明了计算基因组的分段点算法,可以有效地、高精度地计算基因组的分段点,而这些分段点通常具有明确生物学意义。这一算法在基因组岛识别,复制原点预测,Isochore结构边界确定等方面得到具体的应用[7] (计算生物学;细菌学)。
以上4个算法是在Z曲线基础上用几何学方法对基因组进行分析,在国际上独树一帜,具有独创性和系统性的特点。越来越多的国内外同行已经加入此项研究。基于这些算法开发的系列软件已经获得广泛应用。
主要完成人: 张春霆
张春霆是所有科研项目的唯一负责人,是所有论文的唯一通讯作者,是本项目的唯一完成人。张春霆在近十年里为本项目投入了主要精力,并全部在国内完成。
|