基于本体的数字图书馆语义检索模型的建立

进入电脑版    时间:2017-02-07 02:16:23     来源: 《河南图书馆学刊》2013007期

王芙蓉

(太原市广播电影电视管理干部学院图书馆,山西太原030013)

关键词:本体;语义检索;关键词

摘要:文章通过本体技术建立基于本体的数字图书馆语义检索模型,论述了本体的相关概念、本体在信息检索中的作用以及本体库的构建,阐明了该模型的工作原理,即运用本体技术,通过推理引擎与语义索引对关键词进行扩展查询,以此作为查询条件进行知识层面的查询,并将结果返回给用户。

中图分类号:G250.7文献标识码:A文章编号:1003-1588(2013)07-0086-03

收稿日期:2013-06-11

作者简介:王芙蓉(1984-),太原市广播电影电视管理干部学院图书馆助理馆员。

1本体的概念

1.1本体的概念

本体起源于哲学,定义为研究“存在”的科学。近年来,本体被引入计算机科学领域,1993年学者Gruber提出:本体是概念模型明确的规范说明。其中,概念模型是指把现实世界中一些相关现象抽象成一个稳定的独立存在的模型。明确指出概念以及概念之间的约束不具有二义性。规范说明是指描述本体的语言可以被计算机识别。总之,本体是在语义和知识层次上将事物的概念、属性和关系通过概念化抽象成一个独立的稳定模型,通过领域模型为各领域的交流提供语义检索的逻辑基础。

本体的主要作用是信息检索、信息互操作等。通过本体技术,可以构建领域本体库,在该库中可以定义词汇之间形式化的关系,为该领域提供一个通用的互操作,使得各种信息资源在语义上实现共享的通用理解[1]。另一方面,通过本体技术,检索出关键词不同,但语义相似的信息,实现在数字图书馆语义检索中的重要应用。

1.2本体的分类

依据领域依赖程度大小,本体分为顶级本体、领域本体、任务本体、应用本体[2]。①顶级本体。顶级本体是常识的、普遍的、通用的概念,属于基本的和哲学上的范畴,与具体的实例无关。例如动物、食物、资源等,从顶级本体可以衍生出领域本体。②领域本体。领域本体是指该领域中概念以及概念之间的关系。根据需求者的要求来确定领域的范围,可以是特定的一个学科领域,或是某几个领域的结合,也可以是某个特定领域的一个小范围。例如计算机科学、医学、历史等。③任务本体。任务本体描述的是在某个任务或行为中概念与概念之间的关系。④应用本体。应用本体描述的是取决于特定任务和领域的概念与概念之间的关系。

1.3本体的组成元素

Perez认为构成本体的建模语言有概念、关系、函数、公理和实例,具体含义如下[3]。

1.3.1概念(Concepts)。是指事物的共同本质的抽象概括,这里概念的包括范围比较广阔,例如:事物的概念、行为、功能以及策略。

1.3.2关系(Relations)。是指领域本体中概念与概念之间的相互关系,在语义形式上定义为n维笛卡尔子集R:C1xC2xC3xC4x......xCn。例如:父子关系、归属关系、整体和部分关系、实例关系。

1.3.3函数(Function)。是一种特殊的关系,具体为前n-1个元素可以唯一确定第n个元素,其定义为F:C1xC2xC3xC4x......xCn。目的是确定概念或实例在网络层次中的位置。

1.3.4公理(Axioms)。是指本体中的概念、属性、关系等组成元素上的特定规则是永远正确的,表示永远为真。

1.3.5实例(Instances)。表示概念(或类)的具体对象。例如:计算机应用软件实例包括WPS、Dreamweaver、Flash等。

2本体技术在信息检索中的作用

2.1智能化地显示用户查询需求

通过本体技术,可以确定用户提交关键词所在的可能领域,从该领域中得到与关键词意义相同或接近的相关概念及其定义,并将其返回给用户,用户在返回结果中判断并选择所需信息。另一方面,通过本体技术,把用户未意识到的或是未明确表达的需求罗列给用户,从而更进一步帮助用户明确并规范自己的需求。

2.2专业化地提供信息服务

通过本体技术与推理引擎,对用户提交的文档进行关键词的抽取,将抽取出来的关键词在领域本体库中判断属于哪个领域,以此对文档进行分类。

2.3提高信息检索质量

传统的信息检索以关键词的外在形式进行匹配,不考虑所表达的语义、同义词、多义词的情况,所以经常出现检索不全面并产生歧义。基于本体的语义检索模型,通过本体技术将用户提交的文档进行关键词的抽取与扩展,根据领域本体库,理解用户的查询,将扩展后的关键词进行检索,将结果返回给用户。从而提高信息检索质量,达到精确查找的目的。

 1/3    下一页 尾页

上一篇:党校图书馆数字化建设探析
下一篇:关于公共图书馆数字化阅读的探析

相关信息