高端学术
您当前的位置:核心期刊咨询网理工论文》档案信息智能检索技术的概念和创新应用

档案信息智能检索技术的概念和创新应用

来源:核心期刊咨询网时间:2019-01-17 10:2912

摘要:这篇档案管理类职称论文发表了档案信息智能检索技术的概念和创新应用,论文剖析现阶段智能检索技术在档案信息检索系统建设中的应用性状入手,提出运用智能检索技术需要采取的创新措施。并分析了三种可改善档案信息检索系统用户体验的方法,有助于实现高效的

  这篇档案管理类职称论文发表了档案信息智能检索技术的概念和创新应用,论文剖析现阶段智能检索技术在档案信息检索系统建设中的应用性状入手,提出运用智能检索技术需要采取的创新措施。并分析了三种可改善档案信息检索系统用户体验的方法,有助于实现高效的档案信息检索。

  关键词:档案管理类职称论文,信息检索档案信息智能检索

档案管理类职称论文

  一、档案信息智能检索技术的基本概念

  档案信息检索技术源于人们对文献的文摘索引与咨询工作需要,这一领域相关的理论研究和技术应用,大致分为手工检索、计算机检索、网络检索和智能检索四个阶段。

  所谓“档案信息智能检索技术”,是指由抽词检索与全文检索发展而来,能够融合档案学、图书馆学、情报学、计算机科学等相关领域的先进理念,应用计算机和网络等先进的技术与方法,通过实施语义理解、逻辑推理与学习、数据挖掘、知识发现与关联等诸多环节,对档案信息进行智能化地存储、处理、获取与利用,实现在更高层次上模拟、应用人类的认知功能和智能活动,满足用户对档案信息的各种个性化需求,为广泛的应用领域提供高效率、高质量的档案信息知识检索服务。

  二、档案信息智能检索技术的类型与特性

  目前,档案信息智能检索技术的应用类型主要有四种:档案布尔逻辑检索技术、档案全文检索技术、档案多媒体内容检索技术和档案搜索引擎检索技术。实践证明,这四种技术虽具有不同的特性优势,但各自的应用效果都尚处于不断探索和完善之中。

  (一)档案布尔逻辑检索技术的应用特性

  查询文本类档案信息,应用比较普及的检索技术是布尔逻辑检索,其属于定性检索技术,主要采用布尔逻辑表达式来表述用户的需求。布尔逻辑检索技术比较符合人们的思维习惯,且能表达复杂的检索需求。其不足之处是,需使用不同的布尔逻辑运算符把多个检索词连接起来,才能表达检索要求。为弥补布尔模型的缺陷,研究人员现已研发出一些新的信息检索模型,如向量空间模型(简称VSM)检索、扩展布尔模型检索、概率模型检索、超文本检索、分布式检索、P2P检索、网格信息检索等。

  (二)档案全文检索技术的应用特性

  档案全文检索技术,是从最初的字符串匹配、简单的布尔逻辑检索技术,逐步演进为可对文献中任何字、词、句进行综合匹配的检索技术。由于档案信息资源主要以数据形式存储在管理系统的“信息库”(“资源库”)内,这种传统的高度专业化、规范化、结构化的信息组织与检索方式,已不能满足网络环境下的档案信息检索需求。档案全文检索技术由此应运而生,并成为档案信息检索的主流应用模式。

  所谓“档案全文检索技术”,是指对档案信息的全文处理采用“一次扫描技术”即计算机索引程序顺序扫描档案全文,对每一个(字)词建立一个索引,指明该(字)词在文章中出现的次数和位置,用户查询时可根据自己的需要,采用布尔逻辑检索等方法查找原文献中任意字、句、段、节、章等细小单元的信息,还可进行各种统计和内容分析。自从沈阳市档案馆于1991年最早开始光盘原文存储与检索的应用研究以来[1],档案全文检索在我国已由实验向实用化发展。目前,這项技术已与人工智能进行紧密结合,尤其在内容的分析理解、组织表达、知识学习和推理机制等方面,正在力求新的突破和发展。

  (三)档案多媒体内容检索技术的应用特性

  基于内容的多媒体检索技术(Content-Based Retrieval,CBR),是指利用模式识别、语音识别、图像理解等技术领域可能提供的方法和工具,直接对音频、图形、图像、视频等档案信息进行内容分析,从中提取其听觉、视觉等特征(如颜色、形状、纹理、节奏、旋律、镜头等),并对这些特征加以组织形成索引,用户将其作为检索的依据,以期实现对这类形象化档案信息的查询与定位。

  目前,已面世的多媒体档案检索系统,如清华大学档案馆技术部研制的“THDA-MIS多媒体档案及办公管理信息系统”等[2],虽已崭露头角,但效果不甚理想,研究人员仍在进行实验探索。

  (四)档案搜索引擎检索技术的应用特性

  随着互联网信息技术的快速发展,搜索引擎在保留全文检索技术优势的基础上,进行了脱胎换骨的革新,并得到广泛的应用。但需要指出的是,搜索引擎的功能特性已不完全等同于全文检索功能。它运用特定的计算机程序,不仅能够搜集互联网上的海量档案信息数据,而且在对档案信息数据进行组织和处理后,可为用户提供便捷、高效的检索服务。目前,根据搜索引擎对网络信息进行处理的不同机制,我们将其分为以下三种类型:

  一是基于Robot的档案信息搜索引擎。该搜索引擎一般由蜘蛛程序、监控程序、索引数据库和检索程序四部分组成,是利用一种蜘蛛程序(Spider),也称“机器人”(Robot),自动对档案Web站点上的网页进行访问,并提供收集、索引等智能检索服务。

  二是主题目录数据库。它根据档案Web站点的内容和性质,将信息集合到一个预先设定的类别中,并把站点的URL和描述归入这个类别,当用户查询某个关键词时,搜索引擎只在这些描述中进行检索,以提高用户所需信息的命中率。鉴于主题目录的用户界面多为等级结构,因而首页设置了最基本的几个大类的入口,可方便用户对感兴趣的主题逐级浏览。

  三是Meta档案信息元搜索引擎。它是一个可在统一查询界面同时或分时跨库查询多个档案管理机构搜索引擎的WWW站点。其本身并没有存放网页信息的数据库,但能对同一个检索词同时调用、控制并优化其他多个独立搜索引擎进行检索,经合并、去重、排序、整理后,既能以统一的格式在同一界面集中显示多个搜索引擎返回的结果,也可分别输出单一搜索引擎的检索结果。

  推荐阅读:《档案春秋》杂志由上海市档案局主管、上海市档案馆主办,是一本以丰富的档案信息资源为依托,以满足广大人民群众对档案信息的知情权为服务宗旨。

转载请注明来自:http://www.qikan2017.com/lunwen/lig/13181.html

相关论文阅读

论文发表技巧

期刊论文问答区

优质科技期刊

最新期刊更新

精品推荐