当前位置 > 成果奖励 > 评奖成果 > 文章详情
夏立新:基于XML的全文检索原型系统的设计与实现
2010-03-16 作者:夏立新 来源:sinoss

  成果名称  基于XML的全文检索原型系统的设计与实现     
  成果类型  论文类     
  出版时间  2007年8月     
  出版单位  《现代图书情报技术》 

  成果内容简介
   全文检索技术是上世纪50年代末出现的一种信息检索技术,它是一种面向全文和提供全文的检索技术,这种检索技术不需对文献进行手工的标引就可以实现检索。全文检索技术的出现在当时导致了信息检索领域的一场革命,比起目录检索,全文检索提供了全新的、强大的检索功能,如可以直接根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源。然而,通过对现有全文搜索引擎的深入分析,发现其存在着索引效率低、更新慢、数据不准确和无法控制输出格式等问题。针对全文检索系统存在的以上问题,我们依托国家社会科学基金项目“基于中文XML文档的全文检索研究” (批准号:04CTQ005;结项证书号:20070672)的资助,开展了较为系统的研究,提出了一种实现内容+结构(Content and Structure, CAS)的信息检索方法,并成功地将该方法应用于湖北省科技信息研究院知识管理系统平台,申请了基于该方法的软件著作权“xml文档的全文检索系统(V1.0)”(登记号:2008SR08114)。

  1.论文的篇章结构、基本观点。
  1.1篇章结构
  全篇论文主要分为六个部分:(1)前言:主要指出当前全文检索系统的意义和存在的主要问题。(2)系统设计目标:根据现有的全文检索系统存在的问题,在对XML深入分析的基础上,提出了基于XML的全文检索系统的主要设计目标。(3)系统设计:主要又包括两个部分:系统结构和模块功能。前者指出基于XML的全文系统五个功能模块:XML解析模块,中文自动分词模块,全文索引模块,全文检索模块,以及一个Web界面;后者分别分析介绍了五个功能模块的主要功能。(4)系统实现:其主要又包括:系统实现关键技术和系统实现过程两个部分。前者主要介绍了XML文档解析技术、中文自动分词技术和Lucene开发平台。在XML文档解析技术中主要分析了SAX、DOM、JDOM等解析技术,分析了他们各自的优缺点,在中文分词技术中,深入探讨了ICTCLAS的主动分词机制,在Lucene开发平台中主要介绍了Lucene这一开放源代码的全文检索引擎工具包;后者主要分析了基于XML的全文检索系统的实现过程:提出文本—>设计Document文档—>建立索引—>搜索模块实现。(5)检索结构输出:主要分析了检索界面的友好性设计和主要的检索策略。(6)结束语:主要说明了基于XML的全文检索系统的优点和今后的发展方向。
  1.2基本观点
  (1)为实现对多种数据类型(如PDF、Word、http等)的信息的索引,我们以XML作为通用数据接口建立索引,既能实现数据源的平台无关性,又提高了索引的效率。
  (2)长期以来,全文检索往往是对自由文本的检索,而很少关注文档结构所蕴涵的语义信息,属于文档级的检索,检准率低,而XML作为半结构化信息的置标语言,可以实现内容+结构的信息检索,实现元素级的信息检索。由于充分考虑了XML置标所蕴涵的语义信息,因此,在建立索引时,通过将不同置标的内容分开建立索引,可以提高索引的深度和准确度。

  2.主要创新和学术价值
  2.1主要创新
  首先,我们建立的基于XML的全文检索原型系统能够实时对网站更新的内容进行索引,这样就使最新的信息也能被用户及时的检索到,从而提高了系统的检全率,在很大程度上提高了搜索引擎的性能。
  其次,系统只返回前面最相关的检索结果,而并不是将所有的相关结果都返回给用户,这样就缩短了检索响应的时间,提高了搜索引擎的检索性能。
  再者,就是充分考虑了XML置标所蕴涵的语义信息。在建索引时,按照不同的置标,将不同置标的内容分开建立索引,提高了标引的深度,从而提高了搜索引擎的性能。
  最后,由于我们建立的这个系统是用XML作为一个通用数据接口,也就是说将其他的数据资源(如数据库资源、PDF格式的文件WORD文档等)转换成XML格式的文件,这样就提高了建立索引的速度并能够减小存储的空间。因为规范化的存储能避免对所有搜索到的文件都进行单独存储,减少存储空间,提高管理效率;另外,把搜索到的信息存进单一的XML文档中,相对于每个独立文件,它可以减少索引程序进行文件定位和打开关闭文件所需要的时间,这在数据量比较大的时候效果特别明显
  2.2学术价值
  长期以来,信息检索研究往往关注于非结构化信息(自由文本)的检索,而很少关注文档结构所蕴涵的语义信息。XML作为半结构化信息的标记语言,不仅仅需要考虑如何从文档中找到相关信息,而且也需要考虑信息的结构和粒度问题,也就是说要实现内容+结构(Content and Structure, CAS)的信息检索。这一新的变化趋势对传统的信息检索实验系统提出了挑战。本论文归纳总结了文档的特征及其描述方法,深入剖析了XML文档的组织和结构,重点分析了基于XML文档的结构索引的方法、特点及优势,提出了实现内容+结构(Content and Structure, CAS)的信息检索方法,探讨了如何改进传统信息检索系统的索引结构以适应XML检索的需要。本论文所取得的研究成果具有重要的学术价值。研究过程中所开发的实现XML文档全文检索的原型系统是一种松散的系统架构,各个子模块之间的相互依赖性低,有利于以后的修改和升级,易于被其他应用系统整合,其具有良好的应用前景。

  3.研究方法
  全文检索的研究内容比较丰富,涉及许多方面,主要包括理论、技术、方法、工具、应用等。从整体上看,本篇论文是本着提出问题——分析问题——解决问题的逻辑,采用理论分析与实际应用相结合的方式展开相关问题的研究。具体来讲,本研究首先通过文献回顾、网络调研和专家访谈,采用比较分析方法对现有的全文检索技术和XML文档检索技术进行对比分析;其次,通过XML在全文检索中的优势分析,发觉XML应用于全文检索的可能性和优越性,以整合两者的优势;然后,在对信息资源分析的基础上,研究构建基于XML全文检索系统的特性;接着,在以上研究的基础上,采用系统分析方法,构建一个基于XML的全文检索模型;再就是采用实证分析方法,选择一个应用背景,依据该模型,建立一个基于XML的全文检索原形系统,进行实证研究。若经实践验证该模型未达到预期研究目标,则在理论研究的基础上,对该模型进行再设计,直至实现预期研究目标。

  4. 学术影响或社会效益
  本论文是国家社会科学基金项目“基于中文XML文档的全文检索研究” (批准号:04CTQ005;结项证书号:20070672)的主要成果之一。依托项目的相关理论研究成果,本文提出了实现内容+结构(Content and Structure, CAS)的信息检索方法,开发了基于该方法的“xml文档的全文检索系统”,是理论研究和实际利用的具体体现。本论文所取得的信息检索方法具有重要的学术价值。研究过程中所开发的实现XML文档全文检索的原型系统是一种松散的系统架构,各个子模块之间的相互依赖性低,有利于以后的修改和升级,易于被其他应用系统整合,其具有良好的应用前景。湖北省科技信息研究院集成运用了我们所提出的信息检索方法,将该系统整合到院知识管理系统平台中,取得了良好的经济效益和社会效益。我们也成功申请了基于该方法的软件著作权“xml文档的全文检索系统(V1.0)”(登记号:2008SR08114)。

  成果社会反映 
  1、该论文是成果申报人夏立新主持完成的国家社会科学基金项目“基于中文XML文档的全文检索研究” (批准号:04CTQ005;结项证书号:20070672)的重要研究成果之一。( 见附件1)
  2、该论文所提出的实现内容+结构(Content and Structure, CAS)的信息检索方法取得了软件著作权(见附件2)

  成果引用或被采纳情况 
  该成果在湖北省科技信息研究院知识管理系统平台得到成功运用(见附件3)
 

友情链接