导图社区信息检索原理-第七章

信息检索原理-第七章

华中师范大学情报学考研初试参考书，信息检索系统评价，信息检索系统的概述，评价指标，评价实验。框架清晰，内容丰富，希望对小伙伴有所帮助！

编辑于2022-06-04 12:55:38

信息检索原理
信息检索系统评价

坠落

他的近期作品查看更多>>

信息检索原理-第七章

社区模板帮助中心，点此进入>>

坠落

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 39.8k
- 977
- 2.5k
- 401
- 0
MindMaster
安全教育的重要性
- 8.6k
- 946
- 100
- 18
- 0
issen
组织架构-单商户商城webAPP 思维导图。
- 18.7k
- 3
- 186
- 9
- 1
Kacyun
个人日常活动安排思维导图
- 9.5k
- 0
- 84
- 0
- 0
少儿栏目外景策划波波老师
域控上线
- 4.4k
- 171
- 11
- 4
- 0
jackrao
西游记主要人物性格分析
- 19.3k
- 1.4k
- 647
- 103
- 0
issen
17种头脑风暴法
- 213.4k
- 4.3k
- 11.9k
- 4.1k
- 1
MindMaster
python思维导图
- 9.6k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 3.9k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.4k
- 271
- 189
- 33
- 0
journey

信息检索系统的评价

概述

目的及意义

目的:为了完善系统功能，全面提高系统效益。意义:可以提高系统资源分布的合理性，找出系统存在的缺陷及其原因，以便加以改进；比较各种检索技术的优劣，有助于新系统的设计，丰富信息检索理论等。

理论基础

相关性的影响因素

信息源

信息源:即用户所需要的对象，包括文档、文档的表示和信息。文档是检索系统检出结果的实体。文档的表示包括主题、关键字集合、作者姓名等结枃化的信息。信息是指用户在阅读已经被检索的文档时所获得的非实体性的东西。

信息需求的表示

信息需求的表示分为四个层次，分别是真正的信息需求、感觉到的信息需、查询请求和查询表达，它们的关系是：真正的信息需求＞感觉到的信息需求＞查询请求＞查询表达用户不一定意识到自己实际上想查询什么信息，他所表达出来的需求，即查询请求也可能与真正的需求或感觉到的需求有段距离，查询表达式只是这种表达出来的需求的形式化表示，也许与前三者都存在差异，这种差异令搜索引擎难以真正表达满意的检全率和检准率。信息需求表示通过用户提问表现出来，提问促使文献作为答案输出。用户判断者对提问本身知道的越少，判断文献为相关的倾向就越大。用户希望查找的信息或者希望解决的问题，经过用户选择一定词语表示，又将转化为系统语言表示。

时间与环境

相关性的动态性主要表现于人的主观判断，即用户在判断时的知识状态等主观因素影响着判断结果。用户拥有的知识及其感觉到的信息需求都会随着时间推移而变化，因此对文档相关性的判断必然不是恒定不变的。实验条件的变化可能导致判断的变化，不同的检索行为在主题、任务和情景方面呈现出差异。

判断表达方式

在检索过程中，系统和用户对被检索文献的相关性有三种不同的相关性判断方式，即形式相关、语义相关和语用相关。形式相关评估由系统硬件和软件完成，只考虑检索词或提问与文献标识在形式上是否匹配，若匹配则作为命中文献输出。语义相关评估要考虑命中文献与用户信息问题之间在语义或内容上是否匹配，若匹配则是相关文献。这种评估一般由检索中介完成。语用相关评估要考虑命中的相关文献是否有实用价值，它只能由最终用户完成。

用户判断者的特性

系统要能真正“领会”用户提交的查询所表达的真正需求，很大程度上取决于判断者的教育程度，特别是专业教育水平和身份。判断者的专业知识越高深，相关性判断的一致性就越好。

步骤

确定系统评价对象及目的

评价工作一般针对特定的对象进行，因此，开展一项评价工作首先需要明确评价的对象、范围和目的，以便据此制定相应的评价方案及指标体系。

选择系统评价方式

检索评价研究可以通过多种不同的方式来进行。在具体选择评价方式时，要注意考虑不同方式所需要的评价经费、时间要求和环境限制等因素。

制定系统评价方案

这是评价工作成功的关键所在。评价方案的制定必须确保评价结果能准确反映检索系统的性能或满足评价项目的预期目标。

实施系统评价方案

评价方案经过充分论证并得到认可后，即可进入方案的具体实施阶段。、以检索实验评价法为例，具体包括： 1 抽样 2 测试 3 评价数据的收集和记录 4 数据处理与分析

评价结果生成评价

研究的最后步骤是对本次评价活动进行认真的总结和分析，包括评价结果的解析、评价方案存在的问题与失误、评价报告的撰写、对评价对象的优化或改进建议等。

评价指标

系统角度的性能评价指标

概述

从系统角度来考察检索系统的评价通常是以相关性为标准的。系统角度的相关性是把信息检索定位于一种单方向的信息处理过程，系统根据用户的提问输出检索结果，用户是信息的接受者。

2*2表派生的指标及算法

查全率和查准率

定义

查全率是衡量系统在实施某一检索作业时检索出相关文献能力的一种测度指标，计算方法为： R＝检出的相关文献量/检索系统中相关文献总量＝a/（a＋c）查准率:是衡量系统在实施某一检索作业时检索精确度的一种测度指标，其计算方法为: P＝检出的相关文献量/检出的文献总量＝a/（a＋b）

查全率和查准率的互逆关系

查全率和查准率是评价检索结果的重要指标，二者之间具有密切的关系，即互逆关系，反映的是某一检索结果集合的不同方面的特性。一般来说当选用比较精确和专指的词作为检索词时，所检出的数据信息往往比较符合检索要求，但数量有限使检索者担心有许多数据被过滤掉了。当扩大检索范围，选用广义的词做检索词时准确率会大大降低，检索结果会很庞大，使检索者不得不进行人工的再次筛选。如今，二者之间的这种互逆趋势越来越明显。一方面表现在学者们对查全率和查准率关系的讨论日趋激烈；另一方面则是二者无法同时优化给数据库建设带来了相当的困难。

查全率和查准率的替代性指标

①平均查全率和平均查准率：平均查全率和平均查准率的具体计算方法有 3 点平均值计算和 11 点平均值计算两种方式。其中 3 点平均值计算方法是:选择查准率值分别为（0.25，0.50，0.75）或（0.2，0.5，0.8）时，对这 3 点上的查全率值求平均；11 点平均值计算方法是:将计算平均值的点扩展为（0.0，0.1，0.2，…， 0.9，1.0）等 11 个，其方法与 3 点值的求法相同。 ②调和数 F：调和数 F 的计算公式是：F＝2/（1/R＋1/P）由上式计算出来的 F 值，其取值区间一般为［0，1］。 ③E 测度指标：E 测度指标的计算公式是：E＝1-（1＋b）/（b/R＋1/P）式中 b 为参数，用以反应或调整 R 和 P 的相对重要性。当 b＝1 时，E=1-F；当 b＞1 时，意味着 P 的重要性要大于 R；当 b＜1 时，意味着 R 的重要要大于 P

影响查全率和查准率的因素

①相对值的影响。对于某个数据库的某次特定检索纯属一次随机事件，没有人可以准确语预言检索结果的查全率与查准率，因为它们的研究是相对值的研究，其本身就具有一定的不确定性，其结论也不能是绝对的。 ②检索方式的影响。检索方式有委托检索与非委托索之分。采用不同的方式，其查全率与查准率受到的影响因素也不同。 ③时限的影响。研究查全率与查准率的关系时还要考虑时限的限制，要在时限相等的范围内取样。 ④检索过程中的影响因素。数据库中数据信息的组织和标引的科学程度也会影响查全率与查准率。同时，检索时检索策略的组织和对被检主题的理解程度词语转换能力都会造成不同的检索结果，成为我们定量研究中的不确定因素。

查全率与查准率的适用性

第一，查询最大查全率的合理估计一般需要了解集合中的所有文献，对于大型的文献集来说，就无法对查全率进行准确的估计了。第二，查全率和查准率是相互关联的测度，他们评价检出文献的不同方面，在很多情况下，把查全率和查准率结合在一起形成单个的测度可能更合适些。第三，查全率和查准率的测度是批处理模式下查询集合的性能。但对于现代信息检索系统来说，交互性（而非批处理）是检索过程的一个重要特征。因此那些量化检索过程信息性的指标可能会更合适。第四，当对检索到文献进行线性排序时，查全率和查准率的计算会比较容易。可是对于那些并不需要排序的系统来说，查全率和查准率可能就不能充分满足要求了。

非相关检出率和囊括值

是研究人员根据 2＊2 表派生出来的另外两个评价指标。非相关检出率:主要是用来衡量检索系统对非相关文献的检出比率，其计算方法为: F＝检出的非相关文献/检索系统中的非相关文献总量＝b/（b＋d）囊括值:用来表示某一提问相关的文献在系统文献集合中的分布密度，其计算方法为: G＝检索系统中相关文献总量/检索系统中的文献总量＝（a＋c）（a＋b＋c＋d）

漏检率和误检率

漏检率＝未检出的相关文献量/检索系统中的相关文献总量＝c/（a＋c）误检率＝检出的非相关文献量/检出的文献总量＝b/（a＋b）

用户角度的性能评价指标

概述

在检索性能评价过程中，脱离用户谈相关是不现实的。一篇检出文档是否具有相关性，很大程度上取决于用户的主观判断，往往涉及用户的知识状态、待处理的问题、任务及所处的情境或者用户的目标、动机等众多因素。用户角度的性能评价对检索结果的评价非常关键而不可缺少。

指标

涵盖率

涵盖率为在用户已知的相关文档集合中被检索出的相关文档所占比率。

新颖率

用户检索出的相关文档集合与以前未知的相关文档所占比率。高的涵盖率意味着检索系统可以为用户发现大多数他期望得到的相关文档，而高的新颖率则意味着检索系统在一次检索中可以为用户发现或提供更多以前未知的信息相关文档。

相对查全率

检索系统检出的相关文档数量与用户期望得到的相关文档数量的比率。当用户已经获取得到了他希望得到的相关文档数量后检索过程终止，此时，相对查全率的值为 1。

查全效果

用户期望得到的相关文档数量与为了得到这些相关文档而在检索结果中审查文档数量的比率。

搜索引擎的性能评价指标

建立评价指标的原则

建立评价指标的原则:科学、合理、有效。 ①科学。就是指新建立的搜索引擎评价指标体系能客观、真实、全面地反映搜索引擎的主要性能及其内在联系。 ②合理。就是指搜索引擎评价指标体系是对传统的信息检索评价指标体系的扬弃，继承信息检索传统指标评价体系中的有用部分，弃信息检索传统评价指标中存在严重缺陷的部分，增加新的适合互联网上信息检索评价需求的内容。 ③有效。有效是指搜索引擎评价指标体系既能比较准确地区分各搜索引擎的主要性能，又是简单易用、方便操作。

评价指标涉及的方面

①数据库规模与内容:包括收录范围、数据库内容、更新频率、重复率、死链接率等。 ②索引方法:包括引索方式（自动还是人工）、引索范围与深度。 ③检索功能:基本检索功能（布尔检索等）和高级检索功能。 ④检索结果处理:包括排序方式、显示内容/格式、后处理功能。 ⑤分类功能:包括分类类目体系的深度、数量、合理性等。 ⑥用户界面:包括界面布局、联机帮助、界面定制、界面广告量等。 ⑦汉字处理:包括词语切分、多内码处理/转化、中英文混合检索等。 ⑧其他:如响应时间、系统稳定性。

目前评价活动面临的问题

①搜索引擎提供（或公开）的信息有限。 ②某些指标客观存在，但实际上无法准确获得，如查全率等。 ③各个搜索引擎之间差异较大，测试结果数据的可比性较低。 ④有些评价指标涉及评价者的主观因素较多，或完全取决于评价者的主观判定。

搜索引擎的相关评价指标