计算机信息检索

生物科学2023-02-02 19:57:12百科

计算机信息检索

利用计算机系统有效存储和快速查找的能力发展起来的一种计算机应用技术。它与信息的构造、分析、组织、存储和传播有关。计算机信息检索系统是信息检索所用的硬件资源、系统软件和检索软件的总合。它能存储大量的信息,并对信息条目(有特定逻辑含义的基本信息单位)进行分类、编目或编制索引。它可以根据用户要求从已存储的信息集合中抽取出特定的信息,并提供插入、修改和删除某些信息的能力。计算机信息检索系统可分为:一次性信息检索系统和二次性信息检索系统。前者适合于单个条目,即信息量不大而需要经常修改的情况,如航空公司订票系统。后者适合于信息条目本身信息量较大而不常修改的情况,如图书或文献检索系统。

信息分析

目的是确定输入系统的信息条目的格式和内容,并为建立索引作准备。一次信息检索系统用于确定逻辑记录的格式和记录关键字,或记录之间的关系;二次信息检索系统用于浓缩原始信息,又称作标引。这相当于编制题录或文摘,即找出标识原始信息的一组关键词(称作主题词或检索词),从而产生一部检索词典。在词典中还可以规定同义词、近义词关系和各词语之间的层次关系。标引工作的一部分可由计算机自动完成。例如,利用题内关键词索引或频率统计法等技术从原始信息中抽取出关键词。

信息存储

目的是建立信息库,以备检索。为便于查找,需要合理组织信息条目,可以按文件形式组织,也可以按数据库形式组织。信息检索系统常用的文件组织形式有:顺序文件、索引顺序文件、倒排文件和聚类文件,其中用得较多的是倒排文件和聚类文件。

倒排文件对每个信息条目给出一个表示主要属性的唯一的关键词,称主关键词。所有主关键词和相应信息条目在文件中的地址构成一个索引,称为主索引。系统还给出允许用户检索的信息条目中的次要属性,称为次关键词。次关键词不是唯一的。通过在每个次关键词后面列出出现该属性的信息条目的主关键词而构成另一种形式的索引,称为次索引。从主关键词查主索引可以找到信息条目。从次关键词查次索引可以找到若干主关键词,系统从主索引可以找出若干有关的信息条目。在一次检索提问中要查找的索引部分是很小的,所以倒排文件结构的查找时间较短。

聚类文件是通过分析信息条目之间的相似性来组织的。检索时,系统查找出与提问关键词有相似性的聚集类,聚类文件结构特别适合于文献检索的情况。

信息检索

有脱机处理和联机检索两种检索方式。对于前者,用户提交书面检索要求,操作员按期打印出结果交付用户。对于后者,用户通过联机终端打入检索命令,系统当时给出回答。通过计算机网络,用户还可以进行远程脱机处理或远程联机检索。

用户与系统的接口是检索语言,通过它提出检索要求。检索语言通常包括检索命令和提问逻辑表达式两个部分。命令传达用户对系统的请示,逻辑表达式则提供执行该命令时的逻辑条件。逻辑表达式是逻辑运算符(与、或、非)、逻辑关系符和不同属性的组合。系统提供一组程序来解释和执行检索语言。

系统维护

系统提供一组实用程序来进行装入信息的格式转换、信息文件的初始化和故障后系统的重新运行等一般性服务。二次信息检索系统还提供检索词典维护程序,以便能增加、删除、修改和打印出检索词。

保密性和可靠性

计算机信息检索系统的保密性是通过对信息条目的存取控制机构来实现的。对于以文件系统为基础的信息检索系统,存取控制一般只能在文件一级,即通过在打开文件时核对口令来控制非授权的用户检索信息。对于以数据库技术为基础的检索系统,存取控制可以在文件、记录,甚至在信息条目中某信息项一级,既可以通过核对口令方式,也可以采取调用用户编写的编码、译码子程序的方式阻止非授权的用户调用保密的信息。

计算机信息检索系统的可靠性与计算机系统的可靠性密切相关。它依赖于计算机系统硬件的可靠性、操作系统的故障恢复机构、数据库管理系统的恢复机构和应用软件采取的故障处理措施。任何计算机信息检索系统都不能保证信息不受到破坏,但是它必须具有从破坏中得以恢复的能力。

效能评价

计算机信息检索系统的效能通常根据漏检索、误检率、检全率、检准率和响应时间(对联机检索)等来衡量。关键词本身错误或使用的查找算法不对会引起漏检。关键词的二义性会造成误检。检全率和检准率主要针对二次信息检索系统而言的。检全率指检出的相关信息条目数与信息库中的相关条目数之比。检准率指检出的相关条目数与所有检出的条目数之比。这二者是相互制约的。一般认为一个系统检全率在60%~70%,检准率在40%~50%即能满足需要。响应时间的快慢不仅与软件设计的好坏有关,而且与硬件的性能有关。

应用范围

计算机信息检索最初用于图书、文献检索方面,后已用在军事、工业、医疗、航空、政府机关等各个方面。有的只作信息检索用,有的则是将信息检索技术应用在其他综合的管理信息系统之中,如用于辅助决策的军事情报检索系统;航空公司自动订票系统,医疗情报系统(包括病历管理、预约登记、通知、病名检索、病床管理等);旅馆床位管理系统;检索型的辅助设计系统等。此外,政府部门或企业的档案管理、科研或工程项目管理、基本建设投资管理等都可应用信息检索技术。

参考书目
  1. 张琪玉著:《情报检索语言》,武汉大学出版社,武汉,1983。
  2. F.W.Lancaster,Information Retrieval Systems—Characteristics,Testing,John Wiley,New York,1968.

相关推荐

猜你喜欢

大家正在看