您现在的位置: 中国科技创新网 > 文章中心 > 论文在线 > 文章正文

4.2.3 气象

在国家气象局“大城市环境气象信息系统研究”课题的子课题“气象数据挖掘与知识发现软件系统”的资助下,于2000年1月开始至2002年12月,经过三年的努力,将ICCKDSS应用于气象短期预报与服务领域(见附件)。通过在北京气象科学研究所进行实际运行后,认为:该软件性能良好,使用方便,人机界面友好,通过在气象各个部门中的推广应用,可产生很大的经济效益和社会价值,是一个具有很高技术含量的软件系统。

1) 功能简介

(1)气象云图数据的处理方法。

超图模型表示、Hilbert空间与小波逼近、矩阵近似、特征提取(小波变换)。

(2)相似模式的知识发现过程,如下图(图27)所示:

图27 相似模式的知识发现过程

(3)气象系统的体系结构。

包括数据预处理模块、模式构造模块、知识发现模块、预测建模模块、数据管理模块与相关的工作平台。其总体结构图如下图(图28)所示:

图28 气象系统的体系结构图

2) 解决的典型问题

在气象云图处理上,过去采用经验的方法或传统处理方法,而我们采用相似模式的挖掘方法来分析气象云图,并给出基于信息挖掘的短期预测模型。

目前,ICCKDSS已作为关键部分应用于北京市气象局的“大城市气象预报服务信息系统平台”。ICCKDSS的应用,不仅有效地起到了辅助短期气象预报的功能,而且可以实现在不同的天气生成不同的产品和服务,并将有用的存入知识库,这极大地丰富了北京市气象局的服务范围和功能。

 

4.2.4 国际商务

在与国家商务部国际电子商务中心的合作中,构造了基于我们专利技术的“面向加工贸易基于竞争情报的智能决策支持系统”。针对外贸加工中国内采购与供应链系统进行深入分析,通过数据挖掘、WEB挖掘、案例推理与OLAP等技术,挖掘出一些平时很难靠直观或凭借经验发现的规则,而对领导决策管理有一定的参考价值。

1) 功能简介

(1) 包含的主要功能模块有: KDD*、OLAP、案例推理、Web挖掘、评估模型等。

(2) 商务领域网站主页应用窗口(如图29)

图29 基于知识发现的商务应用系统

(3) KDD*挖掘窗口(见图30)

图30挖掘结果

2) 解决的典型问题

挖掘出一些平时很难靠直观或凭借经验发现的规则,而对领导决策管理有一定的参考价值。例如:

(1)提供设备价款小于10000、可供辅料价款小于100000、那么申请合同类型为进料合同。由此可看出进料合同的基本特征;

(2)进口料件原值1百万以内、加工费小于100000,那么进口料件总值1百万以内;

(3)加工贸易方式为0、可供辅料价款小于100000,那么加工费小于100000。

这个系列性研发项目的实施,将对我国外贸出口、进口、顺差、逆差、预警、体制等方面产生重要的影响。

该系统已通过正式验收(见附件)。验收委员会一致认为:

① “面向加工贸易基于竞争情报的企业经营和领导战略决策支持系统”将一般智能决策支持系统提升到基于信息挖掘的智能决策支持系统水平,进而融入了数据仓库技术——在线分析处理技术(OLAP),知识发现技术——结构化数据关联分析技术(KDD*),以及专家系统的理念和技术——知识获取与案例推理。这种提升与跨领域的融合具有创新性,提出了一种新型实用智能决策支持系统。

②该系统的理论基础为“基于内在认知机理的知识发现理论KDTICM”,直接开发工具以基于KDTICM开发的知识发现软件系统ICCKDSS(获相关的三项国家发明专利证书、软件著作权证书与软件产品登记证书)为核心。该系统综合使用在线分析处理、专家系统和知识发现技术,对中国商务部国际电子商务中心现有加工贸易数据进行多维建模、知识库构建和高层关联分析。

③该系统完成了海量数据的多角度、多层面综合统计分析,提升了现有统计分析水平;通过知识库的架构,集中高效的利用了领域专家的知识经验,为决策者提供了可靠的可资借鉴的历史经验和相关背景信息;使用高级数据挖掘机制与方法,综合探究各种数据信息间的内在逻辑关联结构,揭示出平凡方法无法发现的因果性规律,为决策提供深层科学依据。

④在提升现有统计分析和辅助决策能力的同时,系统建构了一个一般加工贸易业务运行平台;使整个系统以内在的多层次功能逻辑结构去覆盖加工贸易信息系统的多个层面,为类似于商务信息系统的一般复杂信息系统的建设提供了一个可资借鉴的原型;具有很好的产品化与应用前景。

总之,该系统的研发和运行表明ICCKDSS软件系统是一个性能良好和功能完备的新型知识发现系统。此项目研发的新型智能决策支持系统是集理论、软件与应用于一体的创新性研究成果;深刻地体现了知识发现创新技术与前沿智能技术的融合,在解决国家对外商务领域辅助决策等重大工程应用问题中的极其重要的作用。系统整体上达到国际先进水平。

4.3 有望对科学发现产生重要影响的应用——蛋白质3维结构预测

蛋白质是一个氨基酸的序列(由一定氨基酸的序列形成,具有3维空间结构)。在分子生物学领域,预测蛋白质的3维结构被认为是最难解决的问题之一,也属国际性重大科研课题的研究。由于形状(三维构象)往往会决定蛋白质的功能,因此,进行这种预测对医药界也同样具有重大意义。

蛋白质中氨基酸的排列被称为是蛋白质的一级结构。从空间角度讲,蛋白质中的氨基酸通常按照不同的模式进行排列,如α螺旋、β折叠、无规则卷曲、转角与环形等。这些不同的蛋白质的3维空间形状称为蛋白质的二级结构。1992年,Muggleton利用广义归纳逻辑编程(Inductive Logic Programming, ILP)对蛋白质次结构中的螺旋形进行了预测。在训练集和测试集上分别得到了78%和81%的精确率。

如果关系型学习(分类)器的(知识表示)语言是逻辑程序(设计)语言,那么这种学习就被称为归纳逻辑编程(程序设计)。实际应用的归纳逻辑编程系统主要分为两类:经验型归纳逻辑编程(程序设计)系统 (Empirical ILP System)和交互式归纳逻辑编程系统 (Interactive ILP System)。前者可以从大量例子中(归纳)学习单谓词的序列分析知识,而后者可以从少量例子学习多谓词的知识。Muggleton使用的是经验型归纳逻辑编程系统,即主要对单谓词的知识进行学习。目前,国内外此项研究均在单一的物化属性序列分析或单一的氨基酸结构序列分析的层面上,构建预测模型与方法;无一将两者实施无缝对接。

与Muggleton等当前最新的工作相比,我们的工作具有如下特征:

1) 将生物工程与信息工程密切结合,深入探究先前未知的内在认知机理.如:较为完备的影响蛋白质高级结构的因素分析(形成”因素结构图”);各属性、属性值、属性编码以及残基序列中的变换与匹配规律对3维结构形成的影响;物化属性对中间点的影响等;

2) 构建了随信息粒度空间由粗到细的、逐步求精的、多层递阶的“金字塔”式结构的预测模型,即(1层)物化属性序列分析---(2层)基于1层结果的(融合所选择的物理化学属性进行)氨基酸结构序列分析---(3层)基于2层结果,在训练集与测试集上实验得到的预测结果的归纳及其精度计算---(4层)领域知识作参照系,进一步考察其对预测结果的影响,进一步精化结果。

3) 核心层:物化属性序列分析采用关联分类方法,即用我们首次提出的基于双库协同机制的KDD*过程模型与M算法(国家发明专利技术)进行关联分析;再用我们改进的分类器进行分类。在此所论的关联分析中,第一我们得到复合蕴涵的、结论为α螺旋、β折叠、无规则卷曲等结构形式的规则;第二我们得到α螺旋等(二级结构)为前件,而其具备的(物化结构)属性为后件的规则;第三我们得到属性间的关联关系。

4) 核心层:氨基酸结构序列分析采用改进了的SVM/NN方法。

5) 利用完备的先导性知识与领域知识精化分类,排除奇异。包括:归纳获取的知识、位能函数、倾向性因子、光譜数据库、环境因素、进化信息、信息熵评价与优化等。

因此,我们认为:具有上述特征的研究将有望在蛋白质二级结构的预测中得到更高的精度,并很有可能在其3维结构的预测中有所突破,进而对制药业产生重要影响。目前,该项研究已取得了阶段性重要成果。

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 

文章录入:zgkjcx    责任编辑:zgkjcx 
  • 上一篇文章:

  • 下一篇文章:
  •  

    关于我们 | 加入收藏 | 联系我们 | 设为首页 | 广告说明 | 合作项目

    名称:科技创新网 工信部备案号:京ICP备13040577号-2 京公网安备11010802045251号
    版权所有:未经授权禁止复制或建立镜像 E-Mail:zgkjcx08@126.com