导图社区 信息检索原理-第九章
华中师范大学情报学考研初试参考书,因特网信息检索,因特网信息资源,因特网信息检索工具,因特网信息检索工具展望知识点总结。
编辑于2022-06-04 12:56:42因特网信息检索
因特网信息资源
概念
因特网信息资源是指以数字化形式记录的以多种媒体 形式表达的,分布式存储在因特网不同主机上的,并通过计算机网络通行方式进 行传递的信息资源的集合,是从计算机技术、通信技术、多媒体技术相互融合而 形成的、在因特网上可查找、可利用的资源。
种类
按人类信息交流方式分类
①非正式出版信息,是指流动性、随意性较强的信息量大,信息质量难以保证 和控制的动态性信息。 ②半正式出版信息,又称灰色信息,指受到一定产权保护但没有纳入正式出版 信息系统中的信息。 ③正式出版信息,指受到一定产权保护、信息质量可靠以及利用率较高的知识 性、分析性信息。
按时效性因特网分类
①网上出版物,包括报纸、期刊,其中很多是免费的。 ②动态信息,如政府机构发布的消息、政策法规、项目进展报告、产品目录、 出版目录、广告等。 ③联机馆藏书目数据库。 ④国际联机数据库。
按 IDG Book Word Wide1996 年出版的《WWW 指南》分类
主要标准是学科领域, 共分出农业、人类学、天文学、艺术、航空航天科学、生物学和商业等 57 个 类
按因特网信息资源的组织应用形式分类
①万维网(WWW)信息资源。 ②电子邮件信息资源 ③FTP 信息资源。文件传送,即允许因特网上的用户将一计算机上的文件传递到 另一台计算机上,能实现庞大程序或数据文本的发送和接受。 ④Telnet 信息资源。远程登录,即用户的计算机通过因特网成为某个因特网主 机的远程终端,从而使用该主机对外开放资源。 ⑤USENET/Newsgroups 信息资源新闻组是因特网上的讨论小组或电子公告板,也 称电子论坛。 ⑥LISTSERV/Mailing List 信息资源。因特网特有的一类信息资源,是伴随着人 们利用因特网便捷的交流条件进行交流活动而产生的。 ⑦Gopher 信息资源 Gopher 将完善的信息组织成联机的菜单系统,以方便用户 浏览感兴趣的题目。这是一种交互式、菜单式的信息查询工具,提供面向文 50 本的信息查询服务。 ⑧WAIS 信息资源。广域信息服务系统是用户查询互联网上各类数据库的一个通 用信息检索工具。
组织形式
概述
网络信息组织是指人们根据网络信息本身的特征(或属 性)运用各种工具和方法,对网络信息进行加工、整理排序、组合,使之有序化、 系统化、规律化,从而有利于网络信息的存储、传播、检索、利用,以满足人们的 网络信息需求的活动过程。 从结构上看,网上一次信息的组织方式主要有文件方式、超媒体方式和数据库方式等;二次信 息的组织方式主要有搜索引擎、主题树、图书馆编目方式、数字图书馆与虚拟图 书馆方式等;三次信息开发的规模还有限,主要是以超文本说明的形式辅助用户 掌握并利用网络检索工具,以便进一步获取一次信息。
具体方式
文件方式
文件方式是网上数字化信息资源的一种主要存储形式,以文件方式组 织字化信息主要有文档文件、图像文件、音频文件与视频文件等四种类型。 主要有以下优势:简单方便;以文件方式组织网络信息资源是存储非结构化信息 的天然单位。 弱点: 1)随着网络信息资源利用的不断普及和信息量的不断增多以文件为单位共享和传 输信息就会使网络负载越来越大。 2)对结构化信息的组织与管理显得软弱无力 3)随着以文件形式保存和管理的信息资源迅速增多,文件本身也需要作为对象来 进行管理。
超媒体方式
超媒体技术是超文本与多媒体技术的结合,它将文字、表格、声音图 像和视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结 构在各种信息库中自由航行,找到所需要的任何媒体的信息。 优势主要有: 1)以非线性的方式组织信息,符合人们思维联想和跳跃性的习惯。 2)节点中的内容可多可少,结构可以任意伸缩,具有良好的包容性和可扩充性。 3)可组织各类媒体的信息,方便地描述和建立各媒体信息之间的语义联系,完全 超越了媒体类型对信息组织与检索的限制。 4)通过链路浏览的方式搜寻所需信息,将信息控制机制融合进系统数据之中,避 免了检索语言的复杂性。 缺陷: 1)采用浏览方式进行信息搜寻,当超媒体网络过于庞大时,很难迅速而准确的定 位于真正需要的信息节点上。 2)很难保存遍历过程中所有的历史记录,在需要时能立即返回到增经过的某一节 点,即难以避免所谓的迷航现象。
数据库方式
所谓数据库方式,就是将因特网信息资源以固定的记录格式存储并提供一些检索入口,用户通过检索入口,就可以找到所需要的信息线索,并利用超级 链接功能直接链接到相关站点或一次信息本身。 优势: 1)对大量的结构化数据的处理效率有了很大提高。 2)数据最小存储单位是信息项(字段),可根据用户需求灵活地改变查询结果集 的大小,从而大大降低了网络数据传输的负载。 3)以数据库技术为基础已建立了大量的信息系统,形成了一整套系统分析、设计 与实施方法,为人们建立网络信息系统提供了现成的经验和模式。 不足之处: 1)对非结构化信息的处理困难较大,对网络环境中日益增加的多媒体信息及表格、 程序、大文本等非结构化信息的组织,该方式显得很困难。 2)无法有效处理结构日益复杂的信息单元。 3)缺乏直观性和人机交互性。
搜索引擎方式
搜索引擎是因特网上对网上二次信息进行组织的主要形式,其实质 是一种报道、存储网上一次信息的检索工具。 优点: 由自动索引软件生成数据库,收录、加工信息的范围广、速度快,能及时地 向用户提供新增信息; 检索时直接输入关键词或词、短语,无需判断类目归属,比 较方便。 缺点: 由于标引过程缺乏人工干预,因此准确性较差; 检索软件的智能化程度不高, 导致检索误差较大; 虽一次检索输出的信息很多,但会包含许多重复、虚假信息, 即检索噪音大。
主题树方式
所谓主题树方式就是将所选定学科领域的所有已获得的信息资源按照 某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览方式逐层 加以选择,层层遍历,直到找到所需要的信息线索,进而通过信息线索直接找到相 应的网络信息资源。 优点: 简便易用,屏蔽了网络信息资源系统对于用户的复杂性,提供了一种基于树 型浏览方式的浏览界面; 信息检索按照一定的系结构,逐次查看,因而对于用户而 言目的性强、查准率高。 缺点: 体系结构不能过于复杂,每一类目下细分的主题不宜过多,限制了其能容纳 的因特网信息资源的数量
图书馆编目方式
目前,图书馆编目已成为一种组织网络信息资源的方式,它用传 统的机读目录格式来组织整理网络信息资源。 优点: 保证为读者所提供信息的质量和可靠性; 通过联机编目可以为用户提供多种 检索途径; 现存的图书馆主题规范系统能为读者提供一贯的、合理的检索途径; 能 为用户提供统一的检索界面; 记录可以像传统书目记录一样被其他图书馆或机构共 享。 缺点: 成本昂贵,编目的速度慢,远远赶不上网络信息资源的增长速度。
数字图书馆方式
数字图书馆实际上是通过互联网连接起来的数字资源库群,是实 行分布式管理的信息和知识共享的计算机系统,其主要特征是多媒体数字化资源、 跨平台、跨语种、网络化存取,计算机系统分布管理和智能化服务,主要目的是实 现信息和知识资源的共享。 优点: 数字化信息载体容量大、体积小,为图书馆节省大量空间; 数字化信息对保 护古籍等文献资料起到重要作用,能为图书、文、音像资料提供比较精确完美的拷 贝; 数字化图书馆不受时空限制的远程高速特点及强大的检索查询功能使资源共享 成为现实数字化图书馆避免了资料的数量限制也不受图书馆导读的个人影响,提高 了利用效率,扩大了使用范围。 缺点: 主要缺点是版权和知识产权在网络时代的运用问题,随着数字图书馆的发展 日渐突出。
虚拟图书馆方式
虚拟图书馆指的是多个图书馆之间为了实现资源的最大利用,通 过图书馆协议和联合组合等形式,将各图书馆的核心能力和资源通过信息网络集成 在一起,形成一个临时性的开放的组织形式,来共同完成某项任务。 优势: 它的优势在于虚拟图书馆的发展丰富了传统图书馆信息资源,拓展了服务形 式,它为用户提供了一个友好的、可随时随地访问的虚拟界面,在一定程度上缓解 了图书馆经费紧张问题; 虚拟图书馆提供的服务更便利,服务的区域更广阔,服务 的项目更多,质量也更高。
特点
①信息存储与传递的数字化和网络化 ②数量巨大,增长迅速 ③内容丰富,形式多样 ④变化频繁,价值不一 ⑤结构复杂,分布广泛
因特网信息检索工具
定义
是指在 Internet 上提供信息检索服务的计算机系统,其 检索对象是存在于 Internet 信息空间中各种类型的网络信息资源。
因特网信息检索工具的结构
①自动索引程序 ②数据库 ③检索代理软件
网络信息检索工具的原理
网络信息检索工具的工作原理可以概括为通过自动索引程序 Robot(或人工)来广 泛搜集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等 处理后形成供检索用的数据库,创建目录索引,并大多以 Web 页面的形式向用户提 供有关的资源导航、目录索引及检索界面。 用户可以根据自己的信息查找要求,按 照该检索工具的句法要求等来通过检索界面输入检索项及提问式等信息。系统检索 软件接受用户提交的检索提问并按照本系统的句法规定对用户输入的字符串、运算 符、标识符、空格等进行识别和判定后,代理用户在数据库中检索,并对检索结果 进行评估比较,按与检索结果的相关程度排序后提供给用户。
因特网信息检索工具的类型
按网络信息资源类型划分
①WWW 检索工具。以 WWW 信息为主要检索对象,又以 WWW 形式提供检索结果的检 索工具,通常被称为搜索引擎,其检索结果被称为网页。 ②非 WWW 检索工具。如 FTP、 Telnet、 Usenet、 Gopher 及 WAS 等信息资源为 检索对象的检索工具。
按检索机制划分
①关键词检索工具。即搜索引擎,它通过用户直接输入检索词来检索网络信息。 优点是信息量大、更新及时、无需人工干预。缺点是信息返回过多,有很多 无关信息,用户必须从结果中进行筛选。 ②分类目录检索工具。以人工方式或半自动方式搜集信息,由编辑 Catalog 即 通过用户浏览分类目录来检索网络信息,相关人员查看信息之后,人工形成 信息摘要,并将信息置于事先确定的分类框架中。优点是加入了人的智能, 所以信息准确、导航质量高;缺点是需要人工介入、维护量大、信息量少、 更新不及时。 ③混合型检索工具。即兼有关键词和分类目录两种检索方式的检索工具。
按包含检索工具数量划分
①单一型检索工具。这是 Internet 上最常见的一类检索工具,它一般拥有自己 的索引数据库,可向用户提供基于自身索引库的查询服务,并根据数据库的 内容反馈出相应的查询信息或链接站点。 ②多元型检索工具。允许一次检索多个搜索引擎,检索的覆盖面非常广。
按检索内容划分
①综合型检索工具。又称为通用检索工具,即检索内容不限,用户可利用它检 索几乎任何方面的信息资源。 ②专题型检索工具。又称为专业检索工具,即检索内容为某一方面或某一主题 范围的信息资源。 ③特殊型信息检索工具。即检索内容为某一类型信息或数据的检索工具。
因特网信息检索工具的功能
基本检索功能
①布尔检索。所谓布尔检索,指通过标准的布尔逻辑关系词来表达检索词与检 索词间逻辑关系的检索方法。 ②截词检索。所谓截词检索指在检索式中用专门的截词符号(一般用*表示), 表示检索词的某一部分允许有一定的词形变化。 ③邻近检索与短语检索。即通过检索式中的专门符号来规定检索词在结果中的相对位置。 ④字段检索。依据这类功能,用户可以把查询万维网信息时的检索范围限制在 标题、统一资源定位地址(URL)或超链等部分。 ⑤区分大小写。在查找西文信息时,区分大小写这一检索特性有助于提高查准 率。
高级检索功能
①加权检索。通过在某个检索词前面带上“+”,表示该检索词必须在检索结 果中出现,反之若某个检索词前面带上“-”,则表示该检索词一定不能出现 在检索结果中。 ②自然语言检索。自然语言检索指用户可以输入自然语言作为检索入口词。 ③相关信息反馈检索。在检索过程中人们会发现某个结果非常符合自己需要, 因此希望进一步检索到与该结果类似的结果,我们称之为相关信息反馈检索。 其基本原理是检索工具将用户所选定的结果网页中包含的关键词找出,通过 它们在这个网页中出现的频率和位置等来计算各自在这个网页中的相关度, 然后选出那些在该网页中最重要的词汇(相关度最高的词汇)用作下一步检 索的检索词。 ④模糊检索。模糊检索允许被检索信息和检索提问之间存在一定的差异,这种 差异就是模糊在检索中的含义。模糊检索中所指的差异往往来自于用户在输 入检索提问时的输入错误。另一类差异来自某些词汇在不同国家的不同形式。 ⑤概念检索。所谓概念检索是指当用户输入一个检索词后,检索工具不仅能检 索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类要领 的词汇的结果。概念检索实现了受控语言的一部分功用,即考虑到了同义词、 广义词和狭义词的使用。 ⑥智能化检索。智能化检索的核心是网络信息检索工具必须具有智能化的 人机接口和系统推理能力,要能够准确判定用户检索提问与数据库文档之间 的关系,并能对用户的潜在需求作出比较准确的分析与判断。
与检索相关的功能
①检索提问的修改与限制 ②按相关度排列结果 ③检索与浏览相结合 ④检索结果的翻译和多语种检索
因特网信息检索工具展望
局限性
(1)搜索引擎对信息的标引深度不够。目前,搜索引擎检索的结果往往只提供一些线 性的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,特别是 对特定的文献数据库的检索显得无能为 力。还存在页面上的图像不能被标引以 及动态生成的 Web 页面,由于其动态性和结构瞬时性也不会被索引等问题。 (2)搜索引擎的信息占有量不足。作为搜索引擎,必须占有相当大的信息量才具有一 定的查全率和实用性,可以说信息占有量的大小是评价搜索引擎性能的重要指 标。目前还没有一种能覆盖整个因特网信息资源的搜索引擎。 (3)搜索引擎的查准率不高。利用搜索引擎找到的往往是一大堆网页地址,用户只有 逐个浏览,才能从中筛选出一部分能满足需求的信息。影响搜索引擎查准率的原 因主要有两个方面:网上信息的质量;人为因素的干扰。 (4)搜索引擎自身的技术局限。基于 Web 页的信息检索技术其匹配算法不同于传统的 信息检索。搜索引擎依据单词、短语出现频度和位置来筛选、标引关键词的做法, 存在自身难以克服的局限性,另外,目前部分搜索引擎还不能对多媒体信息进行 检索。 (5)检索功能单一、缺乏灵活性。目前许多搜索引擎的查询方法较为单一,一般只提 供分类查询方式和关键词查询方式,不能从文献的多个方面对检索提问进行限 制,只能就某一关键词或概念进行笼统的检索。 (6)索引数据库更新困难。由于搜索引擎一般都有庞大的索引数据库,这使它不能有 效地解决更新问题,并且索引数据库越大,其更新周期越长,索引失效问题越突 出。索引数据库存在错误、遗漏及有效性等问题,从而造成检索结果无法找到信 息资源的错误。 (7)大量挤占昂贵的网络带宽和 CPU 资源。由于搜索引擎必须将大量资源站点的内容 传至搜索站本地,然后进行分析、索引,因此这种大批量、大规模的资源文件的 传递和处理无疑增加了网络传输的负担,使有限的带宽变得更加拥挤,同时使用 户访问得不到系统及时的响应。 (8)搜索引擎的分工协作有待加强。目前大多数搜索引擎各行其是、缺少合作,一方 面造成因重复劳动而产生的资源浪费,另一方面也给用户的查找利用造成困难, 而那种指望通过一次查找就能达到目的想法,目前在 WWW 检索中还难以实现。
发展方向
(1)WWW 检索工具主流化。由于具有联网简单、超文本链接、多媒体、浏览界面和易 用等优点,WWW 检索工具已为目前因特网最先进的网络信息检索工具。WWW 检索工 具的发展速度和规模,是其他现有因特网检索工具所不能比拟的. (2)搜索引擎的集成化。集成化的搜索引擎也叫多元搜索引擎,它是多个独立搜索引 擎的组合。运用集成化搜索引擎,用户可以同时对几个搜索引擎进行检索,从而避 免了在不同搜索引擎上所做的重复劳动,节省了检索时间。 (3)服务区域的全球化。随着因特网的迅猛发展,网上其他语种的站点和信息越来越多, 其他国家和地区的上网人数也大幅度增加。而网络通信设施以及检索工具自身性 能的日益提高,,这就促使了网络检索工具向全球化发展的趋势。 (4)服务领域的两极化。因特网信息检索工具呈现出两极分化的发展趋势,即综合化和 专业化。每个学科都有自己独特的词汇及用语,同一术语在不同的学科中具有不 同的定义,通过综合性的检索工具检索到信息在准确度和专指度方面是难以保证 的,于是,一些专业性的网络检索工具在工程、哲学等几个领域应运而生。 (5)检索语言的一体化。网上信息数量与种类的剧增、用户检索行为的自助化、检索 模式从“提问检索式”向“浏览检索式”的转变以及信息检索技术的提高,促使 它们向一体化、兼容化方向发展。 (6)检索功能的多样化。针对网络信息分布无序、难以规范化和结构化、内容特征抽 取复杂等特点,网络信息检索工具的功能也将进一步向多样化方向发展。主要体 现在这几个方面: 检索角度的多样化;检索途径的多样化;检索手段的多样化; 检索结果输出形式的多样化。 (7)检索内容的深入化。我们应保持在非线性检索优势的基础上,提高检索深度,由对 文献线索的检索发展到全文检索,由相关性检索发展到直接性检索,由文献整体 检索发展到信息单元检索。 (8)系统维护的动态化。网上信息资源具有很强的动态性特征,其产生、更新、消失往 往不易预测,这就要求网络信息系统本身也要有很强的动态性。 (9)检索技术的智能化。因特网的飞速发展,对检索工具的智能化程度提出了更高的要 求。智能化程度高的检索工具在竞争中将明显地处于有利地位。 (10)用户界面的友好化。一个友好的用户界面要能支持用户多种语言、多种逻辑方式、 多种角度等进行提问检索,尽可能使用户付出最小的努力就能掌握对检索工具的 使用。