导图社区 数据分析常见面试题总结(IT方向)
数据分析常见面试题总结,包含统计学概率分析,模型评估,Hive大数据技术,SQL数据库技术等,希望可以为求职IT数据分析行业的学员有帮助
关于DeepSeek及Qwen模型部署指南,Main content: Qwen 模型部署硬件需求, DeepSeek R1模型部署硬件需求、 常见部署方法、 推荐部署框架、 输入输出需求,总结与建议等
经营人生就好比经营一家公司,要有自己的价值观和愿景,要有持续进化的理念,持续学习,持续迭代,经营好自己的人生。
哈利波特人物关系,魔法学院同学关系,主要情节人物关系,HarryPotter经典魔法名著,人物关系图。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据分析 面试题
统计与概率
概率题
古典概型
组合
无重复,无顺序
排列
常用概率公式
贝叶斯(逆概率)
统计概型
离散分布
二项分布
有放回,无顺序
投篮命中率0.3, 投4个,中2个的概率
无放回,无顺序
100个奖卷,中奖概率是0.15, 抓奖10次,中2次的概率
泊松分布
λ是单位时间(或单位面积)内随机事件的平均发生次数
平均每分钟过100个车,过120辆车的概率
连续分布
z
t
f
抽样分布,方差之比, 右侧检验
x^2
右侧检验
抽样分布
总体推断
参数估计
假设检验
A/B Test
方差分析
原理
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析用途
1.用于两个或多个总体均数间的比较
2.分析两个或多个因素的交互作用
3.回归方程的假设检验
4.方差齐性检验。
卡方检验
检验分类型自变量对分类型因变量是否有显著影响
数据挖掘/算法
数据处理
数据合并
按行叠加
按列叠加
数据标签、数据编码和生成变量
特征选择
Filter(过滤法)
Wrapper(包装法)
Embedded(嵌入法)
备选模型原理(原理,优缺点)
无监督
kmeans
系统聚类
密度聚类
主成分分析
有监督
KNN
决策树
逻辑回归
回归
集成算法
随机森林
Adaboost
XGBoost
模型评估方法
分类器
面试问题
监督学习和非监督学习有什么不同
你最喜欢的算法是什么?把它解释一下 说原理
KNN和k-means聚类有什么不同
ROC曲线的原理
为什么我们要称“朴素“贝叶斯
L1、L2正则之间有什么不同
L1 绝对值之和
产生少量特征,其他特征是0
Lasso回归
L2 平方和的开方
产生更多特征,其他特征接近0
岭回归
如何对决策树进行剪枝
如何处理一个不平衡的数据集
数据仓库
Hive
必问函数
row_number
rank
dense_rank
查询计划
性能优化
重点问题
1、Hive内外部表的区别
2、Hive的数据倾斜和调优
3、Hive文件压缩格式有哪些?压缩效率如何
4、Hive的分组排序(row_number (),组内TopN
5、Hive的行转列和列转行
6、Hive如何实现UDF
数据库知识
Sql 优化
1. 不用*
2. like 少用
3. in 少用
4 先过滤再连接
5 建索引
不易建立经常修改的表上
若某列常作为最大值、最小值等聚合函数的参数,考虑建立索引
查询中很少涉及到的列、或者重复值比较多的列尽量不要建立索引
经常出现在ORDER BY、GROUP BY、DISTINCT后面的字段最好建立索引
若复合索引中包含的字段经常出现在WHERE子句中,则分解为多个单字段索引
6 应尽量避免在 where 子句中使用 or 来连接条件
Sql基础
行转列
各组topX(每年的成交额最高高的前两个月)