导图社区 《搜索引擎-信息检索实践》读书笔记-第三章
介绍了搜索引擎对信息采集的内容,包含: 1. 研究哪些问题 2. 问题的特点有哪些 3. 有哪些基本的解决方案
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
搜索引擎信息采集
信息采集
网页爬取
发现URL
种子集合
URL队列
多线程
礼貌策略
robot.txt
爬虫规则
网站地图
发现网页更新
HEAD请求降低访问开销
基于历史更新,预测变化频率
网站地图提供更新频率
面向主题采集
特定主题页面(权威站点)
对内容文本分类
对链接标题文本分类
深层网络
特点
很难找到
数量难以精确评估
预测量级远大于索引页面
分类
私人站点
表单结果(困难,URL量级大)
脚本页面
分布式采集
分摊计算和存储资源需求
多URL队列
散列分发任务
文档和电子邮件
需要更快发现更新
需求更大存储资源
需要保护隐私
文档信息源
包含一组同源文档
定期更新
发布后很少修改
分发类型
订阅推送(Push)
主动爬取(Pull)
RSS(Pull类型)
多种定义
简易信息聚合
RDF站点摘要
丰富站点摘要
有多种标准
有过期时间(ttl)
有网页内容摘要
文档处理
内容转换
文本格式转换
字符编码转换
文档存储
数据库(量级小,成本高)
BigTable
规模大,效率高,成本低
行存储,支持列组
支持随机存取
散列服务器
散列文件
文件内定位
文档压缩
多文档同文件
文本压缩
压缩算法大多不支持随机存取
单文档压缩
低压缩率
低解压延迟
少量文档压缩
文档去重
重复来源
抄袭
垃圾
完全重复(校验和)
近似重复
定义困难
内容不同
日期不同
格式不同
...
开销大(存量中发现重复)
文档指纹
n-gram
simhash
过滤噪声
与主要内容无关
一般包含徽标,广告,图片,导航等
文本会干扰索引的词频统计
检测技术
基于标签分布
假设事实:主要内容区域标签很少
统计标签数的累加分布
检测分布中的平缓区间
对单一内容块有效
基于DOM树过滤
递归遍历DOM树
过滤无关标签
对多内容块有效
基于DOM+视觉特征
使用分类器
基于视觉和内容特征分类