夏立新：基于XML的全文检索原型系统的设计与实现

2010-03-16 作者：夏立新来源：sinoss

　　成果名称　　基于XML的全文检索原型系统的设计与实现　　　　
　　成果类型　　论文类　　　　
　　出版时间　　2007年8月　　　　
　　出版单位　　《现代图书情报技术》　

　　成果内容简介
　　全文检索技术是上世纪50年代末出现的一种信息检索技术，它是一种面向全文和提供全文的检索技术，这种检索技术不需对文献进行手工的标引就可以实现检索。全文检索技术的出现在当时导致了信息检索领域的一场革命，比起目录检索，全文检索提供了全新的、强大的检索功能，如可以直接根据文献资料的内容进行检索，支持多角度、多侧面地综合利用信息资源。然而，通过对现有全文搜索引擎的深入分析，发现其存在着索引效率低、更新慢、数据不准确和无法控制输出格式等问题。针对全文检索系统存在的以上问题，我们依托国家社会科学基金项目“基于中文XML文档的全文检索研究” (批准号：04CTQ005；结项证书号：20070672)的资助，开展了较为系统的研究，提出了一种实现内容+结构（Content and Structure, CAS）的信息检索方法，并成功地将该方法应用于湖北省科技信息研究院知识管理系统平台，申请了基于该方法的软件著作权“xml文档的全文检索系统（V1.0）”(登记号:2008SR08114)。

　　1.论文的篇章结构、基本观点。
　　1.1篇章结构
　　全篇论文主要分为六个部分：（1）前言：主要指出当前全文检索系统的意义和存在的主要问题。（2）系统设计目标：根据现有的全文检索系统存在的问题，在对XML深入分析的基础上，提出了基于XML的全文检索系统的主要设计目标。（3）系统设计：主要又包括两个部分：系统结构和模块功能。前者指出基于XML的全文系统五个功能模块：XML解析模块，中文自动分词模块，全文索引模块，全文检索模块，以及一个Web界面；后者分别分析介绍了五个功能模块的主要功能。（4）系统实现：其主要又包括：系统实现关键技术和系统实现过程两个部分。前者主要介绍了XML文档解析技术、中文自动分词技术和Lucene开发平台。在XML文档解析技术中主要分析了SAX、DOM、JDOM等解析技术，分析了他们各自的优缺点，在中文分词技术中，深入探讨了ICTCLAS的主动分词机制，在Lucene开发平台中主要介绍了Lucene这一开放源代码的全文检索引擎工具包；后者主要分析了基于XML的全文检索系统的实现过程：提出文本—>设计Document文档—>建立索引—>搜索模块实现。（5）检索结构输出：主要分析了检索界面的友好性设计和主要的检索策略。（6）结束语：主要说明了基于XML的全文检索系统的优点和今后的发展方向。
　　1.2基本观点
　　（1）为实现对多种数据类型（如PDF、Word、http等）的信息的索引，我们以XML作为通用数据接口建立索引，既能实现数据源的平台无关性，又提高了索引的效率。
　　（2）长期以来，全文检索往往是对自由文本的检索，而很少关注文档结构所蕴涵的语义信息，属于文档级的检索，检准率低，而XML作为半结构化信息的置标语言，可以实现内容+结构的信息检索，实现元素级的信息检索。由于充分考虑了XML置标所蕴涵的语义信息，因此，在建立索引时，通过将不同置标的内容分开建立索引，可以提高索引的深度和准确度。

　　2.主要创新和学术价值
　　2.1主要创新
　　首先，我们建立的基于XML的全文检索原型系统能够实时对网站更新的内容进行索引，这样就使最新的信息也能被用户及时的检索到，从而提高了系统的检全率，在很大程度上提高了搜索引擎的性能。
　　其次，系统只返回前面最相关的检索结果，而并不是将所有的相关结果都返回给用户，这样就缩短了检索响应的时间，提高了搜索引擎的检索性能。
　　再者，就是充分考虑了XML置标所蕴涵的语义信息。在建索引时，按照不同的置标，将不同置标的内容分开建立索引，提高了标引的深度，从而提高了搜索引擎的性能。
　　最后，由于我们建立的这个系统是用XML作为一个通用数据接口，也就是说将其他的数据资源（如数据库资源、PDF格式的文件WORD文档等）转换成XML格式的文件，这样就提高了建立索引的速度并能够减小存储的空间。因为规范化的存储能避免对所有搜索到的文件都进行单独存储,减少存储空间，提高管理效率；另外,把搜索到的信息存进单一的XML文档中,相对于每个独立文件,它可以减少索引程序进行文件定位和打开关闭文件所需要的时间,这在数据量比较大的时候效果特别明显
　　2.2学术价值
　　长期以来，信息检索研究往往关注于非结构化信息（自由文本）的检索，而很少关注文档结构所蕴涵的语义信息。XML作为半结构化信息的标记语言，不仅仅需要考虑如何从文档中找到相关信息，而且也需要考虑信息的结构和粒度问题，也就是说要实现内容+结构（Content and Structure, CAS）的信息检索。这一新的变化趋势对传统的信息检索实验系统提出了挑战。本论文归纳总结了文档的特征及其描述方法，深入剖析了XML文档的组织和结构，重点分析了基于XML文档的结构索引的方法、特点及优势，提出了实现内容+结构（Content and Structure, CAS）的信息检索方法，探讨了如何改进传统信息检索系统的索引结构以适应XML检索的需要。本论文所取得的研究成果具有重要的学术价值。研究过程中所开发的实现XML文档全文检索的原型系统是一种松散的系统架构，各个子模块之间的相互依赖性低，有利于以后的修改和升级，易于被其他应用系统整合，其具有良好的应用前景。

　　3.研究方法
　　全文检索的研究内容比较丰富，涉及许多方面，主要包括理论、技术、方法、工具、应用等。从整体上看，本篇论文是本着提出问题——分析问题——解决问题的逻辑，采用理论分析与实际应用相结合的方式展开相关问题的研究。具体来讲，本研究首先通过文献回顾、网络调研和专家访谈，采用比较分析方法对现有的全文检索技术和XML文档检索技术进行对比分析；其次，通过XML在全文检索中的优势分析，发觉XML应用于全文检索的可能性和优越性，以整合两者的优势；然后，在对信息资源分析的基础上，研究构建基于XML全文检索系统的特性；接着，在以上研究的基础上，采用系统分析方法，构建一个基于XML的全文检索模型；再就是采用实证分析方法，选择一个应用背景，依据该模型，建立一个基于XML的全文检索原形系统，进行实证研究。若经实践验证该模型未达到预期研究目标，则在理论研究的基础上，对该模型进行再设计，直至实现预期研究目标。

　　4. 学术影响或社会效益
　　本论文是国家社会科学基金项目“基于中文XML文档的全文检索研究” (批准号：04CTQ005；结项证书号：20070672)的主要成果之一。依托项目的相关理论研究成果，本文提出了实现内容+结构（Content and Structure, CAS）的信息检索方法，开发了基于该方法的“xml文档的全文检索系统”，是理论研究和实际利用的具体体现。本论文所取得的信息检索方法具有重要的学术价值。研究过程中所开发的实现XML文档全文检索的原型系统是一种松散的系统架构，各个子模块之间的相互依赖性低，有利于以后的修改和升级，易于被其他应用系统整合，其具有良好的应用前景。湖北省科技信息研究院集成运用了我们所提出的信息检索方法，将该系统整合到院知识管理系统平台中，取得了良好的经济效益和社会效益。我们也成功申请了基于该方法的软件著作权“xml文档的全文检索系统（V1.0）”(登记号:2008SR08114)。

　　成果社会反映
　　1、该论文是成果申报人夏立新主持完成的国家社会科学基金项目“基于中文XML文档的全文检索研究” (批准号：04CTQ005；结项证书号：20070672)的重要研究成果之一。（见附件1）
　　2、该论文所提出的实现内容+结构（Content and Structure, CAS）的信息检索方法取得了软件著作权（见附件2）

　　成果引用或被采纳情况
　　该成果在湖北省科技信息研究院知识管理系统平台得到成功运用（见附件3）