导图社区 李沐机器学习
对李沐大神机器学习数据处理课程1.1-2.5的总结思维导图,简略版本,包含数据标注、探索性数据分析、数据清理、数据变换、特征工程等。
这是一篇关于艺术设计概论的思维导图,主要内容包括:导论,艺术设计的历史,艺术与设计,设计与科学技术,设计方法、程序与管理,设计的哲学,设计与文化,设计师与设计,走向未来的设计。
这是一个关于校园3D模型的制作技术路线导图 ~是非常专业实用的流程图哦,有需要的朋友赶紧收藏吧!
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
李沐机器学习
数据的获取
什么时候需要数据获取
需要开始机器学习项目,但是没有足够的现成数据
获取数据的途径
寻找现有数据集
常见数据集
数据类型
生成数据
GAN生成图像
网络爬虫(web crawling)和数据抓取(web scrapping)
目标是从网页上提取数据
很多ML数据集是从网页上抓取得到的, 例如ImageNet, Kinetics
爬虫和抓取
网络爬虫是将整个网络中的数据收集起来并索引, 常常用在搜索引擎上
数据抓取往往关注的是特定站点中特定类型的数据, 最终整理成数据表
数据抓取工具
curl是最传统的工具,直接下载某个特定网页. 但是它很容易失效
headless 浏览器无界面的浏览器, 例如selenium
IP池防止IP封禁, IPv4 AWS占1.75%, Azure占0.55%, GCP占0.25%
数据标注
半监督学习
人工标注数据
弱监督学习
探索性数据分析
导入相关包
numpy
pandas
seaborn
matplotlib.pyplot
读取数据
对数据进行简单处理
数据清理
提升数据质量
数据不干净
数据对模型不友好
数据格式错误
数据变换
对数值的变换
将数据的单位放到合理的区间
Z-score算法
把一列的数据换成-1到1之间的数据
对图片的变换
将图片的尺寸变小
图片采样的比较小,且jpeg选用中等质量压缩,可能会导致精度有1%的下降(ImageNet)
对视频的变换
使用短视频(10s以内),将视频切到感兴趣的部分
对文本的变换
词根化
词元化
特征工程
为什么需要特征工程
对表的数据
对文本的数据
对图片和视频