导图社区 搜索系统
搜索系统的思维导图,整理了数据收集及预处理、文本分析(query理解)、搜素系统中的主要算法、搜索系统评价的知识,一起来看。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
搜索系统
框架
基本框架
信息收集
信息存储
信息拓展
搜索计算
搜索引擎组件
搜索器
索引器
检索器
用户接口
数据收集及预处理
收集
爬虫
通用型网络爬虫(全网爬取)
批量型网络爬虫
增量型网络爬虫
垂直型网络爬虫
爬虫质量标准
网页覆盖率
时效性
重要性
爬虫待爬取URL顺序策略
宽度优先遍历
非完全Pagerank
大站优先
内容更新策略
历史参考策略
用户体验策略(只更新用户使用的)
聚类抽样策略
清洗
网页去重
Simhash算法
存储
索引结构
倒排索引
Trie树
分布式设计
文本分析(query理解)
查询处理
术
英文分词
中文分词
难题
歧义识别
新词识别
基于字符串匹配的分词算法
基于理解的分词方法
基于统计的分词方法
道
查询建议
下拉推荐算法
基于日志的下拉推荐
对页面浏览进行拓展,基于综合指标的下拉推荐
基于用户行为的下拉推荐
基于query session的下拉推荐
查询更正(query 纠错)
错误检测
类型
non-word
real-word
错误纠正
纠错候选召回
候选排序选择
non-word型
最小编辑距离
最大噪声信道概率
real-word型
计算最大噪声信道概率和分类
意图理解
精准意图识别
意图分类
query侧和item侧标签体系
模型
其他文本分析方法
层次聚类
K均值聚类
LDA主题模型(Latent Dirichlet Allocation):隐狄利克雷模型
基于知识图谱的搜索系统
搜素系统中的主要算法
信息检索基本模型
本质是对信息相关度建模
布尔模型
向量空间模型(Vector Space Model,VSM)
标引项(Term)的选择
权重计算(每篇文档中每个标引项权重)
查询和文档的相似度计算
概率检索模型
通过概率将查询和文档连接起来
查询条件Q、文档D、相关度R
其他模型
基于集合论的模型
基于代数论的模型
基于概率统计的模型
搜索和机器学习
见上文
排序学习
机器学习排序方法
单文档方法(Pointwise)
文档对方法(Pairwise)
文档列表方法(Listwise)
逻辑回归
AdaBoost
袋装(Bagging)
提升(Boosting)
AdaBoost(Adaptive Boosting)
随机森林
搜索和深度学习
DNN(Deep Neural Network),深度神经网络
DSSM(Deep Structured Semantic Models,DSSM),深度结构语义模型
Transformer
残差网络模型(Residual Network,ResNet)
构成
编码器
解码器
搜索系统评价
性能评价
响应时间和开销
文档库规模
硬件因素
检索软件
存储设备类型和数据结构
索引量
查全率(召回率)
查准率(准确率)
平均化和插值
平均准确率(Mean Average Precision,MAP)
排序靠前的文档质量
效益评价
经济效益
社会效益