第24卷第4期 2006年10月 佳木斯大学学报(自然科学版) Journal of Jiamusi University(Natural Science Edition) Vo1.24 No.4 Oct. 2oo6 文章编号:1008—14o2(2oo6)o4—0479—04 基于本体的异构数据集成方法研究与应用 周刚,郭建胜,石磊 (空军工程大学工程学院。陕西西安710038) 摘要: 分析了现有的数据集成方式,针对集成中的语义异构问题提出一种基于本体和XML的集 成系统框架,并进一步阐述了其实现中的关键技术,结合航空装备信息的特点,给出该框架在航空装备信 息集成系统中的具体应用. 关键词:异构数据源;本体;XML;数据集成 中图分类号-TP393 文献标识码: A 目前,在企业中,由于开发时间或开发部门的 不同,往往有多个异质的、运行在不同软硬件平台 上的信息系统同时运行,这些系统的数据源彼此独 则,数据集成质量好.但是通过集中复制数据实现 数据集成,只能定期更新数据,无法实时变化,而且 每当现存的异构数据源的数据库模式发生变化或 一立且相互封闭,使得数据难以在系统之间交流、共 享和融合,由此形成了“信息孤岛”现象.随着信息 化应用领域的不断扩充和深入,企业内部部门之间 和企业与外界之间信息交互的需求日益强烈,迫切 需要对原有的信息系统进行整合,连通“信息孤 岛”,共享数据.数据集成系统可以把原来孤立于 多个异构数据源中的数据整合起来,为部门的应用 提供一个完整统一的数据视图,从而充分利用现有 数据资源. 个新的数据源加入到系统中,就必须重新生成一 次全局模式,使得维护全局模式十分困难,系统可 扩展性差 . 数据集成中间件:利用中间件集成异构数据 源.中间件作为一种基于分布式处理的独立软件成 分或服务程序,具有标准的程序接口和协议,可实 现不同软硬件平台上的数据共享和应用互操作. 负责数据集成的中间件系统位于异构数据源(数据 层)和应用程序(应用层)之间,向下协调各数据库 系统,向上为访问集成数据的应用系统提供统一的 全局数据模式.中间件技术由于数据源自治性好、 查询实时、配置灵活等优点,自出现以来被广泛应 用 1 异构数据源集成概述 异构数据源集成可以通过多种途径实现,主要 有以下几种. 定制转换工具:在不同数据源之间定制专用的 但这些集成方法都面临如何更好的解决语义 异构的问题,本体是对某一领域中的概念及其之问 关系的显式描述,是语义网络的一项关键技术,利 转换工具,实现数据的交流与共享,例如使用各种 电子数据交换(EDI)软件进行数据交换.该方式技 术较为简单,但存在实现成本高,系统扩展性差,数 据存在多个备份,难以保持一致性等不足,正在被 用本体来描述语义层次上的关系,结合结构上的 XML Schema描述,能够较好地解决不同的数据模 式在结构上和语义上的异构性问题H j. 新的数据集成方式逐步取代…. 集中复制数据:以建立数据仓库为典型,通过 对异构数据源中的数据进行分析、转换和装载,将 各个数据源中的数据移入数据仓库,实现异构数据 综合考虑数据集成系统的实现策略,结合具 体的应用需求,本文将本体和中问件技术相结合, 以XML为公共数据模型实现异构数据源的集成. 源中数据的集中式管理、集中式存储,其优点是原 来分散的应用系统仍然独立运作,不会破坏原有的 应用架构;可以集成多种数据源和复杂的商业规 ①2异构数据源集成的性能要求 对异构数据源进行集成,其目的是要实现信息 收稿日期:2006—08—22 作者简介:周刚(1979一),男,新疆石河子人,空军工程大学硕士研究生,主要研究方向:信息系统与决策支持系统 维普资讯 http://www.cqvip.com
480 佳木斯大学学报(自然科学版) 2006年 共享,解决信息孤岛造成的重复录入、资源浪费、数 据不一致性等问题,同时为综合信息查询和决策支 持服务提供基础数据平台.因此,集成系统必须满 足以下要求: (1)集成性.各个异构数据库都存在着自己的 业务逻辑或数据结构,对异构数据源进行整合应该 发掘不同数据库中数据之间的内在关系,使得集成 后的数据成为建立在一定联系上的整体. (2)完整性.为了满足各种应用处理(包括发 布)数据的条件,集成后的数据必须保证一定的完 整性,包括数据完整性和约束完整性两方面. (3)一致性.不同信息源之间可能存在着语义 上的区别,集成后的数据应该根据一定的数据转换 模式和业务规则进行统一数据结构和字段语义编 码转换. (4)访问安全性.由于数据库资源归属不同的 单位,某些数据存在一定的保密性,因此在实现数 据共享的同时必须充分保证原系统的数据安全. 3基于本体的系统集成架构设计 本系统的架构采用中间件架构,支持虚拟视图 或视图集合.系统不存储任何异构数据库中的实际 数据.为了更好地解决语义异构,在中间件中引入 了一个本体库.整个系统架构包括三个层次:应用 层、中间件层和数据源层.图1是系统的体系结构 示意图. (1)应用层 应用层为终端用户提供访问中间件层的查询 接口,用户可以通过应用层的浏览器对中间层实施 调用.系统提供统一的查询检索平台. (2)中间件层 中间件层从更高层次上屏蔽了数据源的分布 性和异构性.在用户看来,它认为所有的数据都是 本地的,处于同一服务域中.而具体查询请求的处 理,结果的返回都由中间层负责.中间件主要由中 介器、包装器和本体库三个部分组成,其中中介器 又包括查询生成器、查询分解引擎、查询执行引擎 和结果处理器几个功能组件. (3)数据源层 数据源层是由分布式异构数据源组成,数据源 可以是关系数据库、Excel表格,也可以是半结构化 的XML文档.每一个数据源都可以位于Web上不 同的服务站点,采用本地的方式对数据进行管理. f应用 、 I 浏览器应用程序 l II 奉体庠 西 … l l、 器 窗宙商 图1系统体系结构 4关键模块的设计 4.1中介器 中介器为客户端提供一个统一的接口对数据 源进行查询,负责接收来自浏览器的全局查询请 求,再根据相应的集成信息,将全局查询请求分解 为多个局部查询请求传递给包装器,最后将包装器 返回的结果进行处理后送回浏览器,同时还要维护 集成信息,保证全局事务执行的正确性和一致性. 中介器主要由查询规划模块和结果合并过滤模块 构成. 客户请求2卜卜.\’ 询 、 生 查 询 分 皿 调度 管 / 成 解 理 客 请求3l/ SqI队列 隆I 2查刚馍块 4.1.1查询规划模块 查询规划模块负责将客户端提交的标准查询 分解成针对各个异构数据库的子查询并提交到相 应的包装器,涉及到请求的连接、排队、转发等方面 的技术.图2为本模块的系统结构 (1)查询生成器.查询生成器负责接收用户由 浏览器查询界面提交的查询请求,并根据本体库中 全局本体定义的概念信息将用户请求实例化为内 部统一的可识别的全局查询语句. (2)查询分解引擎 查询分解引擎的主要任务是进行查询分解工 作.它主要负责接收查询生成器传递的全局查询语 句,分析局部本体定义信息,确定要查询的局部数 维普资讯 http://www.cqvip.com
第4期 周 刚,等:基于本体的异构数据集成方法研究与应用481 据源,并调用映射规则中全局本体和局部本体的对 应关系执行分解算法,将全局查询分解为对应各局 部数据源的子查询. (3)查询执行引擎 查询执行引擎由队列管理和调度策略子模块 组成.①队列设管理对生的sql子查询进行数据的 接收、排队,再经过调度管理子模块发送到相应的 包装器执行.调度管理模块采用基于FIFO调度策 略的队列管理机制 J,调度线程首先取队列的头元 素,然后判断其属性参数,最后发送到相应包装器 执行. 4.1.2结果合并过滤模块 模块通过包装器实现对各个异构数据库的查 询访问,获取结果集.这此结果集包含了不同数据 库的查询结果,由数据库中的行数据构成.对于这 此数据必须进行判断,如果是重复的数据,就要进 行合并过滤,返回惟一值.对于两个行数据的集成, 需要定义每个行数据的关键属性组,这个关键属性 组(如人的姓名和出生13期)用于判定二个同类的 行数据是否为同一实体.当两行数据的关键属性组 的值对应相等时,并不能像标识属性值相等时那样 简单地过滤掉其中一个信息对象,而是将两个信息 对象集成为一个包含更大信息量的信息对象.集成 的方法是:如果两行数据的同属性取值相等,则集 成信息对象中该属性的值取任一行数据的对应属 性值;如果二行数据除关键属性组外的属性取值不 同,则删除一行数据的相同属性值,并把剩余的属 性值连接到另一行数据的末尾成为同一行数据输 出. 4.2本体库 本体库中存储了利用本体描述语言(OWL)描 述的全局模式(即全局本体)和局部模式(即局部本 体)以及它们之间的映射关系.它是整个系统解决 语义异构问题的核心 j. 系统从消除语义冲突的观点实现数据集成时, 希望能够屏蔽数据源局部语义的不一致,提供给用 户一个全局概念的集合,这个集合包含了系统能够 集成的数据,用户将根据这个全局的概念集合产生 查询请求,不必考虑局部数据源语义不一致的问 题.一个全局本体就是这个概念集合的具体表示, 它包括了领域内共享词汇的概念以及这些概念之 间的关系.全局本体提供了整个系统集成数据信息 的全局视图,用户将根据全局本体所描述的共享概 念提交全局查询.局部本体是描述具体数据源中的 概念和关系.每一个局部本体概念都将对应到全局 本体的相关概念上,这个对应的结果就是本体库中 存储的映射规则.系统能够根据全局本体与局部本 体之间的映射规则将全局的查询重构为对应每一 个具体数据源的子查询. 例如,在数据源Dl中飞机的信息表示为,飞 机l(编号,机种,单位,机械师,飞机状况),而在数 据源D2中表示为,飞机2(飞机编号,型号,团,中 队,负责人,飞机状态).根据对数据源和局部本体 的分析,他们都表示了一个共同的关于飞机的信 息,因此全局本体中可以抽象出一个代表公有的领 域概念,表示为,飞机(飞机号,飞机型号,所属单 位,负责人,完好状况),并在全局视图和局部视图 建立相应的映射关系.当用户在提交的查询: select飞机编号,所属单位from飞机根据该全 局本体与局部本体之间的映射规则,将这个全局 的查询语句可以分解为对应数据源Dl和数据源 D2的子查询: Select编号,所属单位from飞机l Select飞机编号,所属团,所属中队from飞机2 刘3但装器 占f勾【 4.3包装器(Wrapper) 对异构数据源来讲,包装器就是关系模式的翻 译器,一个包装器主要由查询转换器、结果转换器 组成.查询转换器主要从中问层接受查询和生成本 地查询,并调用对应的本地数据源执行.本地数据 源返回它自己固有形式的查询结果(比如关系数据 库返回的是一个记录集)到结果转换器,结果转换 器根据预先定义用于描述输出格式的Schema和查 询结果信息到输出XML格式之间的映射关系,转 化成XML的格式输出. 维普资讯 http://www.cqvip.com
482 佳木斯大学学报(自然科学版) 2006年 5在航空装备信息集成中的应用 现行航空装备信息系统在操作系统上均采用 微软的Windows,但在数据库平台和应用程序开发 平台的选择上却不尽相同:有的采用Delphi与SQL 6结束语 通过对比已有数据集成系统的体系结构,结合 具体的航空装备应用领域,提出了一种基于XML 中间件和本体的数据集成框架.系统将局部数据源 数据转化为XML数据进行集成,从而屏蔽底层数 SERVER2000相结合,有的采用Delphi与Oracle;, 还有些采用VB与Paradox相结合或用Foxpm开发 的.这些现有的数据源主要存在两方面的异构:① 系统异构,主要是数据库管理系统上的不同;②语 义异构,如命名冲突和结构语义冲突. 据源的异构性,利用本体描述领域概念的优势,构 建全局本体,同时定义了全局本体和局部本体的映 射规则,较好地解决数据集成中存在的语义异构问 题. 利用此集成方案对航空装备信息进行集成,取 得了满意的效果,较好的解决了语义问题.整个平 台为基于中间件的三层体系结构,采用B/S架构, 系统能够灵活集成ORACLE,MSSQL等常用关系 数据库和预订格式的XML文件.用户可以在一个 统一的查询界面输人查询请求,得到集成数据源的 参考文献: [1]吴国新,吉逸.EDI技术研究及其实现[J].计算机研究与发 展,1998,35(2):108—113. [2]姜代红.数据仓库技术在系统集成中的应用研究[J].徐州工 程学院学报,2005,20(5):59—61. [3]乐鑫喜,刘清.异构数据库集成系统的设计与实现[J],计算机 工程与应用,2005。27(4):175—177. [4] Smith MK,Wehy C,McGuinness DL,OK] web Ontology Ian・ guage Guide[EB/OL].http:Ilwww,w3.org, FLU2004.1REC—oM— guide一20040210.(2OO4—02—10). 信息,返回结果也在同一界面上显示.在开发工具 上,Java程序采用Borland公司开发的JBuilderX, XML编辑工具采用XMLSPY,本体编辑工具采用斯 坦福大学开发的pmtrg6,它是一个免费的、开源的 [5]H Wache,T.vogele.et a】.Ontole ̄v Based Integration of Information: A Survey of Existing Approaches[EB/OI ],hltp:Ilwww.informatik. uni—br ̄nen.de/visser/liter.html,(2001—08—16). 可视化本体编辑工具.全局本体载人过程中,使用 由HP公司的Brian McBride开发的Jena工具.Jena 是一个Java框架,它提供了OWL API,允许解析、创 [6]鄂大伟.用多FIFO输入缓冲队列消除HOL阻塞[J].计算机 工程与应用.2001,35(11):79—84. 建和查询OWL模型.具体使用Jena API中提供的 loadclass和findproperty接口实现对全局本体文件 类及属性的解析. [7]张英朝,张浩,张维明.给予本体的虚拟组织信息集成视图映 射关系构建方法研究[J].小型微捌计算机系统,2006;27(3): 564—567. The Research and Application of Heterogeneous Data Source Integration Based on Ontology ZHOU 凡g,GUO n—sheng,SHI Lei (Engineering Institute,Air Force Eicheerh ̄University,Xi’all 710038,China) Abstract:This pat)er ana1) ses different kinds of data integration method.It brings forward an ontology and XML based on data integration fl-n,ework faor eliminating the semantic heterogeneity,expatiates the pivotal technolo ̄' of implementation and gives a practical application in the integrate information system of aviation equipment. Key words:l letemgcnous database;ontolog?,;XML;data integration
因篇幅问题不能全部显示,请点此查看更多更全内容