您的当前位置:首页正文

从新视角开展信息检索建模研究

2023-02-07 来源:个人技术集锦
品书录│PINSHULU

从新视角开展信息检索建模研究

□文│赵瑞清

德国柏林图书馆门前有这样一段话:“这里是知识的宝库,你若掌握了它的钥匙,这里的全部知识都是属于你的。”这里所说的“钥匙”即是指信息检索的方法。信息检索就是把我们想得到的信息通过某种途径快速而准确地获得。信息检索起源于图书馆中的文献检索,随着信息处理技术、计算机技术、数据库技术的发展,信息检索已经渗透到我们生活的方方面面。面对现代社会海量的信息,我们如何找到符合自己要求的信息?当然是用先进的信息检索工具。先进的信息检索工具离不开信息检索理论与技术的支撑,而建模是其中的关键理论之一。徐建民教授的著作《基于术语关系的贝叶斯网络检索模型扩展》(科学出版社2019年11月出版)从多个方面对信息检索建模进行了积极的探索,具有重要的学术价值。

本书的研究成果为国内基于贝叶斯网络的信息检索模型研究积累了有价值的资料。贝叶斯网络首次应用于信息检索领域是在20世纪80年代末,至今先后产生了三类有影响的模型。1990年特特尔(Turtle)和克罗夫特(Croft)提出的推理网络模型,突破了贝叶斯网络不能很好地应用于信息检索的界限,并由此产生了该领域一个重要的商业性软件包InQuery;1996年提出的信念网络模型给出了一个有效的推理机制,可以模拟布尔模型、向量空间模型和推理网络模型,可以方便地组合不同证据,以提高检索性能;2003年de󰀁Compos󰀁L.M.和他的合作者提出了贝叶斯系列模型,该类模型拓扑结构简单灵活,推理准确全面,同时将贝叶斯网络应用于结构化文档的检索。国内对贝叶斯网络在信息检索领域的研究甚少,徐建民教授自2004年起展开对贝叶斯网络信息检索模型的扩展研究,至今已经持续了15年时间。从本书的参考文献来看,他们团队形成了几十篇研究论文,本书即为相关研究成果的结晶。

对基于贝叶斯网络的检索模型进行的扩展研

70

2020年 第08期

CHINA PUBLISHING JOURNAL

究,填补了国内相关研究的一些空白。基本的贝叶斯网络检索模型是以术语节点或文档节点为查询匹配基础,在文档推理和检索的过程中并未充分考虑术语间的关系,故在实现语义检索中有很大局限性。为了解决这个问题,本书作者在国内首次提出利用术语间关系扩展信念网络模型、简单贝叶斯网络模型、结构化文档检索模型的新方法,对语义检索技术的发展有着重要作用。同时,作者还充分利用信念网络模型可以组合不同检索证据的特点,探索了基本模型中组合同义词证据,以及在科技文献检索中组合文献引用证据的实现方法,实验验证了上述方法的有效性。一般地,合理利用给定文档中的术语关系或采用与查询术语有关联关系的词语进行查询扩展,可实现一定意义上的语义检索,有效提高信息检索的性能。作者以此为出发点所作的上述多种尝试开阔了信息检索领域的研究视野,对该领域的研究者有很好的启发作用。

探索术语关系和贝叶斯网络应用的新视角和新领域,实现研究工作的新突破,除了用术语关系扩展贝叶斯网络检索模型的研究,作者将术语关系应用于特征词提取、文档相似度计算、局部伪相关反馈方法的改进,取得了一些研究进展。尤其需要说明的是,作者将信念网络用于话题识别与追踪领域,为话题识别与追踪建模研究提供了新的思路,也开拓了贝叶斯网络应用的新领域。考虑到贝叶斯网络在信息检索领域成功应用的现实,作者尝试把贝叶斯网络应用于话题识别与追踪建模,提出了基于信念网络的静态模型和动态模型。近期也传来作者相关研究的新消息,在贝叶斯网络信息检索模型应用于话题识别与追踪研究方面,在基于文档的信念网络检索模型扩展方面,又取得了新的成果。应该说,上述工作体现了作者研究的不同视角,也体现了他们研究的新进展和连续性。

(作者单位:天津大学管理学部)

因篇幅问题不能全部显示,请点此查看更多更全内容