当前位置 > 成果奖励 > 评奖成果 > 文章详情
董慧:基于本体的数字图书馆信息检索模型研究
2010-03-16 作者:董慧 来源:sinoss

  成果名称  基于本体的数字图书馆信息检索模型研究     
  成果类型  论文类     
  出版时间  2006.6/2006.12     
  出版单位  情报学报 

  成果内容简介
  本系列论文是作者承担国家自然基金委员会资助项目“基于本体的数字图书馆检索模型研究(批准号:70373047)”的成果之一,论文全面、系统地反映了该项目研究水平和成功的经验。
  1、篇章结构、基本观点
  1.1 基于本体的数字图书馆检索模型研究(Ⅰ)——体系结构解析
  篇章结构:论文首先在分析传统数字图书馆检索中存在的问题的基础上把本体引入数字图书馆,接着论述了GGHZ-DL的开发平台与工具,然后按照J2EE标准从视图层、控制层、模型层、本体数据层和系统层次之间的接口耦合机制五个方面阐述了GGHZ-DL系统的框架设计。最后说明了今后研究的方向。
  基本观点:本文讨论了以历史事件为研究领域的本体数字图书馆检索模型(国共两党关系历史数字图书馆)的设计、构建和实现。模型遵循J2EE规范实现了GGHZ-DL本体建库,本体检索,本体推理,本体可视化等功能。文章重点分析了模型开发过程中所采用的数据结构和关键算法。
  1.2  基于本体的数字图书馆检索模型研究(Ⅱ)——语义信息的提取
  篇章结构:论文首先分析了语义提取的必要性和遇到的问题,接着论述了语义提取的实现原则和思路,然后依次按照段落和句子划分、分词和词性标注、语义谓词的选择、相关语义实体的提取、代词消解与时间修订和将结果存入语义数据库6个步骤阐述了语义提取的实现过程。最后演示了语义提取技术在国共合作项目中的实现结果。
   基本观点:语义信息提取是一项较新的技术,本文讨论语义信息提取的定义、原理和思路,并以国共两党关系历史为领域背景,详细分析语义信息提取的过程,即对于待处理的自然语言文字,将其进行分段和分句;针对拆分出的句子,进行分词和词性标注;在词性标注的基础上选择适当动词作为句子的语义谓词;判断该谓词是否属于语义谓词列表;再根据语义谓词来获取相关的语义实体,同时对于指示代词进行消解;最后对时间和地点维进行提取,并更新语义提取背景。本文还对开发过程中所用到的数据结构、关键算法进行了分析。
  1.3 基于本体的数字图书馆检索模型研究(Ⅲ)——历史领域资源本体构建
  篇章结构:论文首先论述把本体引入数字图书馆的必要性,接着简单介绍了国共合作项目的背景,然后从本体形式化描述语言的选择、本体开发工具的选择(Protégé+OWLplugin)、 确立本体工程指导思想和领域专家的参与4个方面阐述了构建领域本体的必备条件,最后详细介绍了“国共合作”领域本体构建过程和一些需要探讨的问题。
  基本观点:近些年来,本体(Ontology)已经在知识工程、人工智能、语义网等相关领域得到了广泛关注和深入研究。目前在数字图书馆领域,本体资源仍然是种稀缺资源。作为“基于本体的数字图书馆信息检索模型”研究课题的一部分,我们构建了“国共合作”历史领域本体,希望利用本体的思想和方法来对数字图书馆中的人文历史学科资源进行知识组织和知识表现。本文将介绍我们在历史领域本体构建方面所进行的工作,探讨在领域本体构建过程中所遇到的问题及其解决方法,希望我们所做的工作能为数字图书馆相关领域的本体构建研究提供有价值的参考。
  1.4 基于本体的数字图书馆检索模型研究(Ⅳ)——历史领域知识推理机制
  篇章结构:论文首先论述进行本体推理的必要性,接着从国共合作领域本体的推理机制和国共合作领域本体的语义关系分析2个方面介绍了国共合作领域本体的推理规则确立过程,然后描述基于规则的RETE知识推理算法,最后从本体推理引擎、本体逻辑检测分析器和本体推理路径回溯分析器3个方面具体阐述了基于国共合作领域本体的知识推理模块实现构建过程,并预言今后研究的方向。
  基本观点:基于本体的领域知识推理主要分为基于逻辑的领域知识检错推理和基于关系的领域蕴涵知识发现推理。对本体描述的领域知识进行推理,可以检测知识逻辑体系错误,减少领域本体构建繁琐的工作量,减轻对领域专家的依赖,发现领域蕴涵知识。在国共合作领域知识进行语义关系分析的基础上,提炼推理规则库,并分别运用TABLEAU算法和RETE模式匹配算法,在推理引擎Racer和Jena中实现了逻辑检错推理和蕴涵知识发现推理。
  
  2、主要创新和学术价值:
  (1)论文将本体论应用于数字图书馆领域,提出的基于本体的数字图书馆知识组织和知识检索模型,丰富了情报学和图书馆学的基础理论研究,扩展了学科的内涵;
  (2)论文论述所采用的本体推理机制,构造庞大的虚拟数据库,解决领域隐性知识的发现、组织、管理与检索,提高了推理路径回溯,丰富了推理过程;
  (3) 论文论述的基于中文本体的多种检索模型(包括一般检索、关系检索、属性检索和回溯检索等),真正实现了中文范畴的知识、知识与知识间的描述;论文论述的本体库的中文信息量目前在国内居首位,在国外中文本体领域规模属于领先地位。
  (4) 论文论述的可视化描述形式丰富多样,可以是静态可视化,也可以是动态可视化,即静态树型结构或动态有向图,形象生动地反映出用户的需求,使用户操作更加便捷;
  (5) 论文描述的历史领域(国共两党第二次合作时期)的本体应用,较好地解决了历史领域人物、事件等问题的复杂关系.

  3、研究方法
  (1)通过文献研究法搜集信息,对国内外相关研究课题进行研究,应用实际,方法得当。论文分析了本体(Ontology)在知识工程、人工智能、语义网等相关领域的研究现状,通过相关课题背景研究,确立该系列论文的研究目标与具体技术路线。
  (2)采用实证研究法,理论联系实际,效果明显。论文依据现有的本体及信息检索理论和实践的需要,论述了在体系结构、语义信息的提取、历史领域资源本体的构建,以及历史领域的知识推理机制等方面进行的具体地研究,描述了建立基于本体的数字图书馆检索模型,实现从语义检索的角度对数字图书馆中的知识进行深层次挖掘,以及提出基于多种检索途径的语义检索模型(包括一般检索、分类检索、关系检索、推理检索和回溯检索)的理论和方法,并在所研究的课题中得已实现,说明该理论和方法的可行性和科学性。

  4、学术影响或社会效益等。
  论文论述了首次将本体论应用于数字图书馆的应用系统,详细的介绍了实现基于本体的数字图书馆知识组织和知识检索模型,此项研究丰富了情报学和图书馆学的基础理论研究,扩展了学科的内涵;提出了基于中文本体对知识的多种检索模式(如一般检索、关系检索、属性检索和回溯检索等),实现了中文范畴的知识、知识与知识间的描述;应用本体推理机制,构造了庞大的虚拟数据库,解决了领域隐性知识的发现、组织、管理与检索,提高了推理路径回溯,丰富了推理过程;应用可视化技术,以静态动态的方式,形象生动地反映出用户的需求,使用户操作更加便捷;以历史领域(国共两党第二次合作时期)为背景,较好地解决了历史领域人物、事件等问题的复杂关系;论文论述的“基于本体的数字图书馆检索模型研究”,其“研究成果系统、完整,总体上处于国际先进水平,特别是在中文本体领域多种检索模型、推理机制和本体应用结合等方面具有创新性,达到国际领先水平。”(专家鉴定意见,见附件)
  系列论文发表后,在海内外引起了强烈的反响,台湾大学有的学者看了论文后,认为武汉大学董慧教授是图书馆学、情报学界研究本体应用的领军学者,其研究成果达到国际领先水平。许多单位的相关研究小组学习这组论文,对照论文的理论和方法与本单位的研究比较,改进了自己的研究,有的还起到了明显的效果。还有些单位主动跟我们课题组联系,希望采用论文论述的理论和方法,合作开发项目,如:已经启动的胡总书记蹲点的什邡市政府关于“恢复健全灾区三级医疗卫生服务网”建设的合作项目、与中国人民武装警察部队医学院合作开发“矽肺纤维化本体分子知识库的初步构建”课题等,特别是什邡市的合作项目在社会上产生了相当大的反响。

  成果社会反映
  从2006年1月到2007年11月,作者带着写作组成员分别在国家图书馆、国家卫生部、中国科学技术信息研究所、天津武警医学院、教育部重点基地重大课题召开的全国论证会、健康中国2020项目组、武汉市软件协会、湖北省档案局、武汉大学测绘遥感信息工程国家重点实验室等单位分别进行了学术交流和论文论述的系统演示。得到了专家学者一致好评和关注,不同领域的学者对论文的观点进行了广泛的引用,并且吸引了许多项目的合作伙伴,特别是胡总书记蹲点的什邡市政府关于“恢复健全灾区三级医疗卫生服务网”建设的合作项目,在社会上产生了相当大的反响。这些项目将论文论述的理论和方法得到了实践和应用。
  2006年6月9日,湖北省科技厅对该系列论文论述的国家自然基金委员会资助项目“基于本体的数字图书馆检索模型研究(批准号:70373047)”,进行了科学技术鉴定(见附件),专家认为:论文论述的“项目研究成果系统、完整、总体上处于国际先进水平,特别是在中文本体领域多种检索模型、推理机制和本体应用结合等方面具有创新性,达到国际领先水平。”项目结题时被基金委评为“优”。

  成果引用或被采纳情况
  系列论文中论述的模型在作者承担的相关项目中得到了应用并获得了十分明显的成效,如: ① 在湖北省宜昌市政府的"宜昌市电子政务总体设计和实施方案设计"中的应用(见附件),使公文不再是简单的、分离的文件信息,而是将公文中的知识以及知识间的关联提取出来,为领导的决策提供依据和参考,提高工作效率和服务质量。② 在湖北省电子政务的电子档案馆系统中的应用(见附件),并于2006年11月28日通过国家档案局科学技术成果鉴定。③ 在武汉大学图书馆内部查询系统中的应用(见附件),得到了老师和同学们的一致好评。
  截止2009年4月,根据CNKI中国引文数据库最新的检索结果,该系列论文 — 《基于本体的数字图书馆检索模型研究(Ⅰ,Ⅱ,Ⅲ,Ⅳ)》被引用31次。具体引用情况(包括期刊论文,会议论文,学位论文)如下:1、“基于本体的数字图书馆检索模型研究(Ⅰ)——体系结构解析”被引频次:12次,引证文献:
  [1] 汪丽萍;顾国庆. 基于本体的信息构建与数字图书馆研究[J]. 景德镇高专学报, 2007,(04).  
  [2] 彭敏惠;司莉. Protégé本体构建工具应用调查分析[J]. 图书情报工作, 2008,(01).  
  [3] 张志平;杨建伟. 语义网技术及应用研究综述[J]. 情报学报, 2008,(05).  
  [4] 高琳;夏清国;王黎明. 基于本体的智能信息检索系统的构建方法[J]. 计算机工程与设计, 2008,(24).  
  [5] 马喜武. 数学方法在图书情报学中的应用[J]. 吉林农业科技学院学报, 2007,(04).  
  [6] 夏火松;陈国栋;范昭岩;章伟. 知识网格研究综述[J]. 情报学报, 2007,(06).  
  [7] 马费成;罗志成;曾杰. 知识相关度的计量研究[J]. 情报科学, 2008,(05).  
  [8] 薛云;叶东毅;张文德. 基于《中国分类主题词表》的领域本体构建研究[J]. 情报杂志, 2007,(03).  
  [9] 徐晓梅;牛振东. 数字图书馆的知识组织研究[J]. 现代图书情报技术, 2007,(10).  
  [10] 郭浩. 基于语义的网上图书自动问答系统研究[D]. 太原理工大学, 2008.  
  [11] 白如江. 数字图书馆智能导航系统分析、设计与实现[D]. 山东理工大学, 2008.  
  [12] 贾黎莉. Ontology构建中概念间关系的研究[D]. 中国农业科学院, 2007.
  2、“基于本体的数字图书馆检索模型研究(Ⅱ)——语义信息的提取”
  被引频次:6次,引证文献:
  [1] 张志平;杨建伟. 语义网技术及应用研究综述[J]. 情报学报, 2008,(05).  
  [2] 高琳;夏清国;王黎明. 基于本体的智能信息检索系统的构建方法[J]. 计算机工程与设计, 2008,(24).  
  [3] 马喜武. 数学方法在图书情报学中的应用[J]. 吉林农业科技学院学报, 2007,(04).  
  [4] 马费成;罗志成;曾杰. 知识相关度的计量研究[J]. 情报科学, 2008,(05).  
  [5] 郭浩. 基于语义的网上图书自动问答系统研究[D]. 太原理工大学, 2008.  
  [6] 李茹;王文晶;梁吉业;宋小香;刘海静;由丽萍. 基于汉语框架网的旅游信息问答系统设计[C]. 第四届全国信息检索与内容安全学术会议论文集(上), 2008. 
  3、“基于本体的数字图书馆检索模型研究(Ⅲ)——历史领域资源本体构建”
  被引频次:8次,引证文献:
  [1] 郝斌. 本体信息检索情境下相关性理论研究[J]. 图书情报知识, 2007,(06).
  [2] 张志平;杨建伟. 语义网技术及应用研究综述[J]. 情报学报, 2008,(05).
  [3] 王昊;苏新宁. 基于模式匹配的中文通用本体概念抽取模型[J]. 情报理论与实践, 2008,(02).  
  [4] 马费成;罗志成;曾杰. 知识相关度的计量研究[J]. 情报科学, 2008,(05).  
  [5] 周宇;纪希禹. 基于本体的多媒体信息融合检索技术[J]. 现代情报, 2007,(07).  
  [6] 赵东霞;赵新力. 基于政务主题词表的本体构建研究[J]. 现代图书情报技术, 2008,(03).  
  [7] 郭浩. 基于语义的网上图书自动问答系统研究[D]. 太原理工大学, 2008.  
  [8] 颜端武. 面向知识服务的智能推荐系统研究[D]. 南京理工大学, 2007.
  4、“基于本体的数字图书馆检索模型研究(Ⅳ)——历史领域知识推理机制”
  被引频次:5次,引证文献:
  [1] 朱利君;张友华;李绍稳;程波波;吉?. 基于描述逻辑的领域本体知识逻辑检测[J]. 农业网络信息, 2008,(09).
  [2] 张志平;杨建伟. 语义网技术及应用研究综述[J]. 情报学报, 2008,(05).  
  [3] 马费成;罗志成;曾杰. 知识相关度的计量研究[J]. 情报科学, 2008,(05).  
  [4] 欧阳宁;包平. 基于本体《中国图书馆分类法》的可视化实现[J]. 图书馆杂志, 2008,(01).  
 [5] 郭浩. 基于语义的网上图书自动问答系统研究[D]. 太原理工大学, 2008.
  部分论文在引用中对系列论文的评价如下:
  1、张志平;杨建伟在“情报学报,2008,(05)”上,发表题为“语义网技术及应用研究综述”文章,指出:数字图书馆是语义网技术应用较多的领域,国内也有一些应用研究者,其中比较典型的就是武汉大学董慧教授的“基于本体的数字图书馆检索模型研究”项目。该项目是一个国家自然科学基金项目,由武汉大学董慧教授等近20多人经过两年多的研究与开发,完成了以“国共合作”历史领域为背景的基于本体的数字图书馆检索模型,试运行半年。… 该模型在国内外的本体构建项目中实属少见。
  2、郝斌在“图书情报知识, 2007,(06)”上,发表题为“本体信息检索情境下相关性理论研究”文章,指出:以武汉大学董慧的课题为例,它是一个面向国共合作这一特定历史时期的本体数字图书馆检索模型。在历史领域专家的支持下,首先运用本体工程思想,抽象出领域概念集合,确立概念间的联系属性,然后定义了一系列有关历史领域的公理和规则,在此基础上,详尽地录入了大量有关人物、事件、地点等历史元素的本体实例。因此,从信息源角度看,该系统利用本体技术,对国共合作历史领域知识进行比较完整的语义建模,从根本上提高了系统角度的检索相关性。
  3、福州大学的薛云、叶东毅、张文德,在《情报杂志》(2007年第3期)上,发表“基于《中国分类主题词表》的领域本体构建研究”文章,指出,“目前国内外已经开发了针对特定领域的本体。…国内的有武汉大学董慧老师带领下构建的国共合作本体…”
  4、北京理工大学计算机技术学院的徐晓梅和牛振东,在《现代图书情报技术》(2007年第10期)上,发表“数字图书馆的知识组织研究”文章,指出,“在数字图书馆系统中集成和利用各类知识组织系统,是另一个主要研究内容。如武汉大学的‘基于本体的检索模型’初步探讨了本体在检索服务中的应用”。

 

友情链接