导图社区搜索系统

搜索系统

搜索系统的思维导图，整理了数据收集及预处理、文本分析(query理解)、搜素系统中的主要算法、搜索系统评价的知识，一起来看。

编辑于2023-09-17 22:49:23

搜索

我在山海里

他的近期作品查看更多>>

搜索系统
搜索系统的思维导图，整理了数据收集及预处理、文本分析(query理解)、搜素系统中的主要算法、搜索系统评价的知识，一起来看。

搜索系统

社区模板帮助中心，点此进入>>

我在山海里

他的近期作品查看更多>>

搜索系统
搜索系统的思维导图，整理了数据收集及预处理、文本分析(query理解)、搜素系统中的主要算法、搜索系统评价的知识，一起来看。

相似推荐
大纲

论语孔子简单思维导图
- 87.5k
- 936
- 1.1k
- 483
- 1
MindMaster
《傅雷家书》思维导图
- 133.2k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 45.3k
- 488
- 985
- 336
- 0
MindMaster
《茶馆》思维导图
- 12.5k
- 175
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 25.8k
- 529
- 1.2k
- 301
- 0
MindMaster
《昆虫记》思维导图
- 33.1k
- 270
- 778
- 276
- 0
MindMaster
《安徒生童话》思维导图
- 18.2k
- 274
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 21.3k
- 309
- 549
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 97.7k
- 12.8k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 10.1k
- 1.7k
- 407
- 40
- 0
Ethan

搜索系统

框架

基本框架

信息收集

信息存储

信息拓展

搜索计算

搜索引擎组件

搜索器

索引器

检索器

用户接口

数据收集及预处理

收集

爬虫

通用型网络爬虫（全网爬取）

批量型网络爬虫

增量型网络爬虫

垂直型网络爬虫

爬虫质量标准

网页覆盖率

时效性

重要性

爬虫待爬取URL顺序策略

宽度优先遍历

非完全Pagerank

大站优先

内容更新策略

历史参考策略

用户体验策略（只更新用户使用的）

聚类抽样策略

清洗

网页去重

Simhash算法

存储

索引结构

倒排索引

Trie树

分布式设计

文本分析（query理解）

查询处理

术

英文分词

中文分词

难题

歧义识别

新词识别

基于字符串匹配的分词算法

基于理解的分词方法

基于统计的分词方法

道

查询建议

下拉推荐算法

基于日志的下拉推荐

对页面浏览进行拓展，基于综合指标的下拉推荐

基于用户行为的下拉推荐

基于query session的下拉推荐

查询更正（query 纠错）

错误检测

类型

non-word

real-word

错误纠正

纠错候选召回

候选排序选择

non-word型

最小编辑距离

最大噪声信道概率

real-word型

计算最大噪声信道概率和分类

意图理解

精准意图识别

意图分类

query侧和item侧标签体系

模型

其他文本分析方法

层次聚类

K均值聚类

LDA主题模型（Latent Dirichlet Allocation）：隐狄利克雷模型

基于知识图谱的搜索系统

搜素系统中的主要算法

信息检索基本模型

本质是对信息相关度建模

布尔模型

向量空间模型（Vector Space Model，VSM）

标引项（Term）的选择

权重计算（每篇文档中每个标引项权重）

查询和文档的相似度计算

概率检索模型

通过概率将查询和文档连接起来

查询条件Q、文档D、相关度R

其他模型

基于集合论的模型

基于代数论的模型

基于概率统计的模型

搜索和机器学习

文本分析（query理解）

见上文

排序学习

机器学习排序方法

单文档方法（Pointwise）

文档对方法（Pairwise）

文档列表方法（Listwise）

逻辑回归

AdaBoost

袋装（Bagging）

提升（Boosting）

AdaBoost（Adaptive Boosting）

随机森林

搜索和深度学习

DNN（Deep Neural Network），深度神经网络

DSSM(Deep Structured Semantic Models,DSSM),深度结构语义模型

Transformer

残差网络模型（Residual Network，ResNet）

构成

编码器

解码器

搜索系统评价

性能评价

响应时间和开销

文档库规模

硬件因素

检索软件

存储设备类型和数据结构

索引量

查全率（召回率）

查准率（准确率）

平均化和插值

平均准确率（Mean Average Precision，MAP）

排序靠前的文档质量

效益评价

经济效益

社会效益