第28卷第4期 渤海大学学报(自然科学版) VoL28 No.4 2 0 0 7年12月 Journal of Bohai University(Natural Science Edition) DeG 2Oo7 基于WORDNET的领域本体半自动构建研究 张 勇 ,门 涛2 (1.巢湖学院计算机系,安徽巢湖238000;2.渤海大学信息科学与工程学院,辽宁锦州121013) 摘要:本体在语义网中发挥着关键作用,针对当前人工构建本体的缺点和自动构建本 体的不可实现性,提出了一种重用WORDNET的半自动构建方案,可以有效运用于领域本 体的构建。 关键词:WORDNET;本体;半自动构建 中图分类号:TP39 文献标识码:A 文章编号:1673-0569(2007)04-0381-04 0 引言 本体目前尚无统一定义,被广泛应用的定义是Gruber…提出的“本体是概念模型的明确规范说 明”。构建本体的方法是当前研究中的热点问题,目前国内外研究本体的构建方法主要有:TOVE法, 骨架法,SENSUS法,七步法,IDEF5方法。现行的本体的构建方法都没有经过权威标准化部门的认 证,要形成一套标准的本体构建方法比较困难。因为领域的不同和具体工程的要求不同,但大家都比 较认同Gruber_2 提出的构建本体的五条原则:明确性和客观性,概念定义的完整性,推理一致性,最 大单向可扩展性,最少约束性。 1 本体的半自动构建 人工构建本体是一项艰巨的过程,不仅需要大量的人力、物力,而且整个过程都需要领域专家的 参与。完全自动地生成本体难度很大是因为,领域内的概念及概念之间的关系的定义是一件赖手的事 情。而要达到完全自动化,就是不给机器任何条件,让它盲目地去寻找概念及关系,这样生成的本体 的准确性很差,目前只能实现受限条件下的轻量级的本体的构建。如何自动或半自动获取本体,提高 本体构建效率,推动本体的研究的发展和应用,成为当前本体研究的热点之一。 半自动的生成本体,就是通过某种技术获得领域核心概念和关系,也就是获得一个核心子本体, 然后不断扩展概念及关系,不断地扩大、完善本体。本文正是利用WORDNET 提出一种半自动构建 领域本体的方案,通过抽取一个核心子本体,再扩展和编辑。 2 基于WORDNET的本体半自动构建方案 2.1 WORDNET的结构 WORDNET 是由Princeton大学认知科学实验室研制的,它的理论基础是心理语言学和人类词汇 记忆学。它根据语义来组织分类词汇信息,而不是根据词的形式。WordNet中的词汇关系如下表: 收稿日期:2007—06—07. 作者简介:张勇(1983一),男,渤海大学硕士研究生,从事语义web和本体研究 维普资讯 http://www.cqvip.com 382 渤海大学学报(自然科学版) 第28卷 表1 WordNet中给出词汇的关系 2.2以WORDNET字典为依据。从中抽取一个子本体 本体中最重要的组成部分包括概念以及概念问的关系。对于概念的获取较为困难,一般需要领域 专家的参与。概念作为知识的表现形式存在于海量信息中,如何将它形式化也是一件较困难的事。通 Fie…!! 皇._.. 一… … . …一 一… ……  ̄earchWlxdc ■■■■■■二…~ ~一……… Re出脚0ven,・ew j7 senses of schooI Sense l school一(an educationalInstitution;1he school was founded in 1 900 HAS MEMBER:stafr,faculty一(the bOdv of leachers and administrators al a school:"the dean addressed the lotter lo — lhe entire staff of lhe un Jve! sity”l HAS MEMBER:professor,prof一(someone who is a member ofthe faculty at a college or university) HAS MEMBER:schOOneacher.school1eacher—fa leacher in a school below lhe college leve1) =》educat Jonalinstitution—tan institution dedicated lo education) =>institut Jon.establishmenl—fan organization founded and untied for a speciifc purpose) =>organization.organisat!on--(a group of people who work together) HAS MEMBER:qUoTum—Ia gathering of the minimal number of members of an organization to conduct business) HAS MEMBER:membership.rank~(the body of members of an organization or group:‘they polled their membership :’1hey found dissension in their own ranks”:"he joined the ranks of the unemployed*) Sense 2 school,schoolhouse一(a building where young people receive education:"the school was built in 1932 : 'he walked to school every morning") HAS PART:classroom.schoolroom一(a room ln a school where lessons lake place) = building。ediifce—fa structure that has a roof and walls and stands more or less permanent ̄in one place:"there was a three-story building on the corner :’'it was an imposing ediifce } HAS PART:annex,annexe extension.wing~fan addition that extends a main building) HAS PART:anteroom.antechamber,entt ance hall hal1.foyer lobby,vestibule一(a large entt ance or reception 1"00111 or area) HAS PART:corner.quoin一((architecture)solid exterior angle of a building;especially one formed by a cornerstone) HAS PART:corner.nook一(an Interior angle formed be two meeting walls;”a piano was In one corner ofthe room”) HAS PART:cornerstone一(a stone at tile outer corner oftwo intersecting masonry walls) HAS PART:cornerstone一(a stone in the exterior of a large and Important building;usual ̄carved with a date and laid with appropriate ceren'mnies) t !照 苎 鲤’粤 …… …一……………~…一 …一~…一… 一一…………~一一…一 一 …一一…… 图1 WORDNET中显示的school的Meronym(下位)关系 常获取某个领域本体的概念主要是通过人工搜集,利用自然语言处理技术 。前者需要耗费大量时 间和精力,中途还需要领域专家的参与,后者不仅需要复杂的专业技术而且结果不能保证。如何有效 利用WORDNET中丰富的资源,是半自动构建本体一种新的尝试。 维普资讯 http://www.cqvip.com 第4期 张勇,门 涛:基于WORDNET的领域本体半自动构建研究 383 我们以构建一个学校(schoo1)本体为例,首先从WORDNET中抽取school本体的核心概念,如 图l所示,分析school的下位关系,抽取staff,teacher,professor,organization,student等核心概念; 分析school的上位关系,抽取institution,organization,social group,group,entity等核心概念;分析 school的同义关系,抽取university,college,education等核心概念。这些核心概念构成是我们所抽取 的子本体的主要概念,并且这些概念与概念之问的关系在WORDNET中已经形成,主要是分类关系。 如school与teacher,staff之间都是HAS MEMBER关系;school与institution是IS A KIND OF关系。 2.3对子本体中的概念及概念间关系进行扩展 对子体中的概念进行扩展,主要利用抽取子本体的核心概念为种子概念 J,再从WORDNET中 抽取与这些种子概念相关的概念为候选概念,然后利用相关语料库计算候选概念与种子概念之间的统 计信息,以确定候选概念能否扩展到本体中。其中可以采用互信息方法计算种子概念与候选概念之间 的紧密度。利用WORDNET获取本体概念的过程中实际上已经获取了本体中的分类关系,对于非分 类关系可以利用关联规则挖掘 的方法,主要利用语料库分析两个概念同时出现的概率。 3 用Prot6g6对子本体进行扩展与分析 Prot6g6 ’ 是由斯坦福大学开发的本体编辑工具,由JAVA语言开发,可以跨平台使用,是目前应 用最多的本体编辑环境,可以利用它对从WORDNET中获取的子本体进行编辑。图3是用Pr0t6g6编 辑的school主体。 图2用Prot6g6编辑的school主体 4 结束语 半自动生成本体的过程中,应当含有人为编辑领域核心本体的过程,它的目标是尽可能少的让人 参与本体的编辑过程,而更多的依靠机器自动完善本体,并且要求本体能达到实用、有效、准确。下 一步目标是在扩充核心本体时,充分利用较成熟的本体学习技术,减少人工干预,提高自动化程度。 维普资讯 http://www.cqvip.com 384 渤海大学学报(自然科学版) 第28卷 参考文献: [1]GruberT R Atranslation Approcach to Portable Ontologic8[J].K A,1993,5(2):199-220. [2]GmberT1LToward principlesfor design ofontologies usedfor knowldgee sharing[J].Intermationaljournla ofHuaman and computer studies, 1995。43(5/6):907—928. [3]李景.本体理论及在农业文献检索系统中的庆用研究[M].北京:北京图书馆出版社,2005. 丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作,2006。50(9):l8-21. [4]张晓林.元数据研究与应用[M].北京:北京图书馆出版社,2002. [5]梁健,吴325. [6]MaedeheA,Stabb&Discovering conceptual relationsfromtext[C].In:HomW,ed./'roe.ofthe ECAI2000.Amsterdam:IOS Press,2000:321 —[7]张勇.领域本体构建主方法研究[J].渤海大学学报:自然科学版,2006.27(4):388—391 Research on method of domain ontology semi——auto construction based on Wordnet ZHANG Yong ,MEN Tao2 (1.Department ofComputer。College ofChaohu。Chaohu 238000。China; 2.College of Information Science&Engineering,Bohai University。Jin ̄ou 121013。China) Abstract:Ontology plays a key role in the semantic web,but there exist problems in manually constructed ontology and it is impossible to construct ontology automatically.A method has been proposed for constructing ontology semi—automatically by reusing WordNet,and it can be applied in ontology construction efficiently. Key words:WordNet;ontology;semi—-automatical
因篇幅问题不能全部显示,请点此查看更多更全内容