导图社区 信息检索原理-第七章
华中师范大学情报学考研初试参考书,信息检索系统评价,信息检索系统的概述,评价指标,评价实验。框架清晰 ,内容丰富,希望对小伙伴有所帮助!
编辑于2022-06-04 12:55:38信息检索系统的评价
概述
目的及意义
目的:为了完善系统功能,全面提高系统效益。 意义:可以提高系统资源分布的合理性,找出系统存在的缺陷及其原因,以便加以 改进;比较各种检索技术的优劣,有助于新系统的设计,丰富信息检索理论等。
理论基础
相关性的基本含义
定义
信息检索的“相关性”主要是指检索系统针对用户的信息 需求从文档集合中检出的文档与用户需求之间的一种匹配关系。 相关性是一 个多维的认知概念,它的含义依赖于检索系统和检索者对信息需求的感知和 理解。 它又是一个动态的概念,依赖于检索者或最终用户在某一时空上对信 息集合与信息需求之间关系的实质判断。
本质特征
关系
最核心。 是对信息与用户需求之间关系性质的判断。
直觉的
用户靠直觉理解相关性
多维的
相关性是一个多维的认知概念。
动态的
依赖于检索者或最终用户在某一时空上对信 息集合与信息需求之间关系的实质判断。
相关性判断的标准
概述
所谓相关性判断”是指信息检索中判断者在某一时刻对某 种相关性的一种赋值操作。
具体判断标准
二元的判断标准
即相关文献接受(1);不相关文献放弃(0)。
多元的判断标准
绝对相关、可能相关、中立或没有判断、可能不相关、绝 对不相关。
多维的判断标准
相关性的影响因素
信息源
信息源:即用户所需要的对象,包括文档、文档的表示和信息。 文 档是检索系统检出结果的实体。 文档的表示包括主题、关键字集合、作者 姓名等结枃化的信息。 信息是指用户在阅读已经被检索的文档时所获得的 非实体性的东西。
信息需求的表示
信息需求的表示分为四个层次,分别是真正的信息需求、 感觉到的信息需、查询请求和查询表达,它们的关系是: 真正的信息需求>感觉到的信息需求>查询请求>查询表达 用户不一定意识到自己实际上想查询什么信息,他所表达出来的需求,即 查询请求也可能与真正的需求或感觉到的需求有段距离,查询表达式只是 这种表达出来的需求的形式化表示,也许与前三者都存在差异,这种差异 令搜索引擎难以真正表达满意的检全率和检准率。 信息需求表示通过用户 提问表现出来,提问促使文献作为答案输出。用户判断者对提问本身知道 的越少,判断文献为相关的倾向就越大。用户希望查找的信息或者希望解 决的问题,经过用户选择一定词语表示,又将转化为系统语言表示。
时间与环境
相关性的动态性主要表现于人的主观判断,即用户在判断时 的知识状态等主观因素影响着判断结果。 用户拥有的知识及其感觉到的信 息需求都会随着时间推移而变化,因此对文档相关性的判断必然不是恒定不变的。 实验条件的变化可能导致判断的变化,不同的检索行为在主题、 任务和情景方面呈现出差异。
判断表达方式
在检索过程中,系统和用户对被检索文献的相关性有三种 不同的相关性判断方式,即形式相关、语义相关和语用相关。 形式相关评 估由系统硬件和软件完成,只考虑检索词或提问与文献标识在形式上是否 匹配,若匹配则作为命中文献输出。 语义相关评估要考虑命中文献与用户 信息问题之间在语义或内容上是否匹配,若匹配则是相关文献。这种评估 一般由检索中介完成。 语用相关评估要考虑命中的相关文献是否有实用价 值,它只能由最终用户完成。
用户判断者的特性
系统要能真正“领会”用户提交的查询所表达的真正 需求,很大程度上取决于判断者的教育程度,特别是专业教育水平和身份。 判断者的专业知识越高深,相关性判断的一致性就越好。
步骤
确定系统评价对象及目的
评价工作一般针对特定的对象进行,因此,开展一 项评价工作首先需要明确评价的对象、范围和目的,以便据此制定相应的评 价方案及指标体系。
选择系统评价方式
检索评价研究可以通过多种不同的方式来进行。在具体选 择评价方式时,要注意考虑不同方式所需要的评价经费、时间要求和环境限 制等因素。
制定系统评价方案
这是评价工作成功的关键所在。评价方案的制定必须确保 评价结果能准确反映检索系统的性能或满足评价项目的预期目标。
实施系统评价方案
评价方案经过充分论证并得到认可后,即可进入方案的具 体实施阶段。、 以检索实验评价法为例,具体包括: 1 抽样 2 测试 3 评价数据的收集和记录 4 数据处理与分析
评价结果生成评价
研究的最后步骤是对本次评价活动进行认真的总结和分析,包括评价结果的解析、评价方案存在的问题与失误、评价报告的撰写、对评价对象的优化或改进建议等。
评价指标
系统角度的性能评价指标
概述
从系统角度来考察检索系统的评价通常是以相关性为标准的。 系统角度的相关性是把信 息检索定位于一种单方向的信息处理过程,系统根据用户的提问输出检索结果,用 户是信息的接受者。
2*2表派生的指标及算法
查全率和查准率
定义
查全率是衡量系统在实施某一检索作业时检索出相关文献能力的一种测度指标, 计算方法为: R=检出的相关文献量/检索系统中相关文献总量=a/(a+c) 查准率:是衡量系统在实施某一检索作业时检索精确度的一种测度指标,其计算方 法为: P=检出的相关文献量/检出的文献总量=a/(a+b)
查全率和查准率的互逆关系
查全率和查准率是评价检索结果的重要指标,二者之间具有密切的关系,即互 逆关系,反映的是某一检索结果集合的不同方面的特性。 一般来说当选用比较 精确和专指的词作为检索词时,所检出的数据信息往往比较符合检索要求,但 数量有限使检索者担心有许多数据被过滤掉了。当扩大检索范围,选用广义的 词做检索词时准确率会大大降低,检索结果会很庞大,使检索者不得不进行人 工的再次筛选。 如今,二者之间的这种互逆趋势越来越明显。一方面表现在学 者们对查全率和查准率关系的讨论日趋激烈;另一方面则是二者无法同时优化 给数据库建设带来了相当的困难。
查全率和查准率的替代性指标
①平均查全率和平均查准率:平均查全率和平均查准率的具体计算方法有 3 点平均 值计算和 11 点平均值计算两种方式。其中 3 点平均值计算方法是:选择查准率值 分别为(0.25,0.50,0.75)或(0.2,0.5,0.8)时,对这 3 点上的查全率值 求平均;11 点平均值计算方法是:将计算平均值的点扩展为(0.0,0.1,0.2,…, 0.9,1.0)等 11 个,其方法与 3 点值的求法相同。 ②调和数 F:调和数 F 的计算公式是:F=2/(1/R+1/P) 由上式计算出来的 F 值,其取值区间一般为[0,1]。 ③E 测度指标:E 测度指标的计算公式是:E=1-(1+b)/(b/R+1/P) 式中 b 为参数,用以反应或调整 R 和 P 的相对重要性。当 b=1 时,E=1-F; 当 b>1 时,意味着 P 的重要性要大于 R;当 b<1 时,意味着 R 的重要要大于 P
影响查全率和查准率的因素
①相对值的影响。对于某个数据库的某次特定检索纯属一次随机事件,没有人可以 准确语预言检索结果的查全率与查准率,因为它们的研究是相对值的研究,其本 身就具有一定的不确定性,其结论也不能是绝对的。 ②检索方式的影响。检索方式有委托检索与非委托索之分。采用不同的方式,其查 全率与查准率受到的影响因素也不同。 ③时限的影响。研究查全率与查准率的关系时还要考虑时限的限制,要在时限相等 的范围内取样。 ④检索过程中的影响因素。数据库中数据信息的组织和标引的科学程度也会 影响查全率与查准率。同时,检索时检索策略的组织和对被检主题的理解程度 词语转换能力都会造成不同的检索结果,成为我们定量研究中的不确定因素。
查全率与查准率的适用性
第一,查询最大查全率的合理估计一般需要了解集合中的所有文献,对于大型 的文献集来说,就无法对查全率进行准确的估计了。 第二,查全率和查准率是相互关联的测度,他们评价检出文献的不同方面,在 很多情况下,把查全率和查准率结合在一起形成单个的测度可能更合适些。 第三,查全率和查准率的测度是批处理模式下查询集合的性能。但对于现代信 息检索系统来说,交互性(而非批处理)是检索过程的一个重要特征。因此那 些量化检索过程信息性的指标可能会更合适。 第四,当对检索到文献进行线性排序时,查全率和查准率的计算会比较容易。 可是对于那些并不需要排序的系统来说,查全率和查准率可能就不能充分满足 要求了。
非相关检出率和囊括值
是研究人员根据 2*2 表派生出来的另外两个评价指标。 非相关检出率:主要是用来衡量检索系统对非相关文献的检出比率,其计算 方法为: F=检出的非相关文献/检索系统中的非相关文献总量=b/(b+d) 囊括值:用来表示某一提问相关的文献在系统文献集合中的分布密度,其计算方法 为: G=检索系统中相关文献总量/检索系统中的文献总量=(a+c)(a+b+c+d)
漏检率和误检率
漏检率=未检出的相关文献量/检索系统中的相关文献总量=c/(a+c) 误检率=检出的非相关文献量/检出的文献总量=b/(a+b)
用户角度的性能评价指标
概述
在检索性能评价过程中,脱离用户谈相关是不现实的。一篇检出文档是否具有相关 性,很大程度上取决于用户的主观判断,往往涉及用户的知识状态、待处理的问题、 任务及所处的情境或者用户的目标、动机等众多因素。用户角度的性能评价对检索 结果的评价非常关键而不可缺少。
指标
涵盖率
涵盖率为在用户已知的相关文档集合中被检索出的相关文档所占比率。
新颖率
用户检索出的相关文档集合与以前未知的相关文档所占比率。 高的涵盖率意味着检索系统可以为用户发现大多数他期望得到的相关文档,而 高的新颖率则意味着检索系统在一次检索中可以为用户发现或提供更多以前未 知的信息相关文档。
相对查全率
检索系统检出的相关文档数量与用户期望得到的相关文档数量的比 率。当用户已经获取得到了他希望得到的相关文档数量后检索过程终止,此时, 相对查全率的值为 1。
查全效果
用户期望得到的相关文档数量与为了得到这些相关文档而在检索结果 中审查文档数量的比率。
搜索引擎的性能评价指标
建立评价指标的原则
建立评价指标的原则:科学、合理、有效。 ①科学。就是指新建立的搜索引擎评价指标体系能客观、真实、全面地反映 搜索引擎的主要性能及其内在联系。 ②合理。就是指搜索引擎评价指标体系是对传统的信息检索评价指标体系的 扬弃,继承信息检索传统指标评价体系中的有用部分,弃信息检索传统评 价指标中存在严重缺陷的部分,增加新的适合互联网上信息检索评价需求 的内容。 ③有效。有效是指搜索引擎评价指标体系既能比较准确地区分各搜索引擎的 主要性能,又是简单易用、方便操作。
评价指标涉及的方面
①数据库规模与内容:包括收录范围、数据库内容、更新频率、重复率、死 链接率等。 ②索引方法:包括引索方式(自动还是人工)、引索范围与深度。 ③检索功能:基本检索功能(布尔检索等)和高级检索功能。 ④检索结果处理:包括排序方式、显示内容/格式、后处理功能。 ⑤分类功能:包括分类类目体系的深度、数量、合理性等。 ⑥用户界面:包括界面布局、联机帮助、界面定制、界面广告量等。 ⑦汉字处理:包括词语切分、多内码处理/转化、中英文混合检索等。 ⑧其他:如响应时间、系统稳定性。
目前评价活动面临的问题
①搜索引擎提供(或公开)的信息有限。 ②某些指标客观存在,但实际上无法准确获得,如查全率等。 ③各个搜索引擎之间差异较大,测试结果数据的可比性较低。 ④有些评价指标涉及评价者的主观因素较多,或完全取决于评价者的主观判 定。
搜索引擎的相关评价指标
相关性范畴
所谓“相关性范畴,是指按照检索结果与用户需求的相关程 度,把检索结果分别归入四个不同的等级范畴中,其中: 范畴 0—主要包括重复链接、死链接、不相关链接 范畴 1—技术上相关的链接,意指检索尽在技术上满足用户提问式但与用户 的需求没有相关性,或者有相关性,但是内容太少或不充分。 范畴 2——潜在有用的链接。 范畴 3——十分有用的链接。
前X命中几率查准率
“前 X 命中记录查准率记为 P(X),该指标主要用来反映 信息检索系统在前 X 条检索结果中向用户提供相关信息的能力。
评价试验
Granfield评价试验
概述
首开规范化评测研究之先河,开创了以测试集配合测 试标准来评估系统的模式。
具体试验
Granfield-I评价试验
评价对象:标题词语言、单元词语言、UDC(国际十进分类法)和一部专业分面分类 法。 评价目的:旨在考察、比较上述各种标引语言的性能并对其中涉及的一些相关问题, 如标引时间、标引深度、标引人员素质等进行试验分析。 意义:首次比较清楚地揭示了对检索系统性能产生影响的一些重要因素,首次提出 并采用了一套比较可行的评价方法,包括对查全率和查准率两个评价指标的使用。
Granfield-II评价试验
评价对象:单元词、受控词、自然语言短语、题名与文摘中的关键词四种 试 验目标:研究这些标引语言的不同控制模式对检索效果的影响 ,试验结论: (1)通常情况下,单元词检索性能最好,受控语言次之,自然语言最差。 (2)使用单元词法时,引入词形和同义词控制有一定效果,但若进一步加强控制, 检索性能则会变得很差。 (3)对于受控语言,在受控词之外,若再引入上位词或上下位词或相关词等,系 统性能变差。
MEDLARS系统评价试验
是为了研究用户的检索需求,确认 MEDLARS 满足用户需求 的程度,分析鉴别影响系统性能的不利因素,以寻找改进系统性能的途径。
SMART系统评价试验
上一个基于向量空间模型的试验系统,在于对某些自动标引技术做出评价。
TERC检索评价试验
TREC 已拥有一个动态更新、来源多样、类型与语种多样的试验 用文本数据集合,数据集合的规模也在逐年稳定增长。 TREC 的试验用数据主要包括 三个不同的部分:测试文档集合,检索问题集合和检索问题的正确答案集合。 TREC 活动的主要目标在于: ①通过提供大型的语料库、统一的测试程序及系统整理评测的结果数据,来促进信 息检索技术的发展。 ②强调检索技术的先进性与实用性的有机结合。 ③倡导以大规模数据为基础的信息检索研究 ④为学术界、工业界、政府部门等提供交流研究思想的公开论坛,促进各部门之间 的合作与交流。 ⑤便利从实验室研究成果到商品化产品的技术转换。
INEX检索评价试验
作为一项大规模的评估,INEX 致力于提高信息检索和数字图书 馆查询的效率,它为促进基于内容的 XML 检索提供了一个国际性的、固定的交流平 台。 INEX 评价测试的目的就是为 XML 文档的评估提供一种测试汇集的形式及评分方法。INEX 为参与者对其检索方法的评估提供了一种统一的评分规则,使得他们 之间可以很直观地比较分析,以找出自身的缺陷。