导图社区 一、外部库选取
这是一篇关于一、外部库选取的思维导图,主要内容包括:pandas,matplotlib,seaborn,二、数据预处理,三、逐个问题分析(Q1-Q8)。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
一、外部库选取
pandas
数据读取
使用pd.read_csv()函数读取CSV文件
使用pd.read_excel()函数读取Excel文件
数据清洗
使用dropna()函数去除缺失值
使用fillna()函数填充缺失值
使用replace()函数替换数据中的特定值
分组聚合
使用groupby()函数进行数据分组
使用agg()函数对分组后的数据进行聚合计算
matplotlib
基础可视化
柱状图
使用plt.bar()函数创建柱状图
使用plt.xlabel()和plt.ylabel()设置坐标轴标签
折线图
使用plt.plot()函数创建折线图
使用plt.title()设置图表标题
seaborn
高级可视化
计数图
使用snscountplot()函数创建计数图
使用hue参数对数据进行分类统计
热力图
使用sns.heatmap()函数创建热力图
使用cmap参数设置颜色映射
箱线图
使用sns.boxplot()函数创建箱线图
使用showfliers参数控制异常值显示
二、数据预处理
读取数据
使用pd.read_csv()函数读取shopping_trends.csv文件
中文显示处理
字体路径设置
指定simhei.ttf字体文件路径
使用font_manager.FontProperties()加载字体
全局字体配置
设置pltrcParams'font.sans-serif'为simhei字体
负号显示
设置plt.rcParams'axes.unicode_minus'为False以显示负号
分组变量创建
年龄分组
使用pd.cut()函数创建年龄分组变量
指定bins参数为10到90之间的范围,步长为10
尺寸有序分类
使用pd.Categorical()函数创建尺寸分类变量
设置order参数为True以创建有序分类
三、逐个问题分析(Q1-Q8)
Q1: 性别/年龄分布 & 年龄-购买频率
性别分布
使用value_counts()函数统计性别分布
使用柱状图展示性别分布结果
使用pd.cut(函数对年龄进行分组
使用计数图展示不同年龄组的分布情况
购买频率
使用sns.countplot()函数创建购买频率的计数图
使用hue参数按性别分类统计
调整图例位置以提高图表可读性
Q2: 品类平均购买量 & 尺寸-购买量
品类均值
使用groupby('Category')对品类进行分组
使用mean()函数计算每个品类的平均购买量
使用横向柱状图展示结果
尺寸有序化
使用pd.Categorical(函数创建尺寸分类变量,并设置为有序
使用groupby()函数按尺寸分组
使用sum()函数计算每个尺寸的总购买量
使用柱状图展示尺寸与购买量的关系
Q3: 性别-购买次数/金额
购买次数
使用groupby('Gender')对性别进行分组
使用sum()函数计算每个性别的购买次数
使用柱状图展示性别与购买次数的关系
平均金额
计算逻辑注意区分总金额除以次数与乘积均值的不同
使用groupby()函数按性别分组
使用mean()函数计算平均金额
使用柱状图展示性别与平均金额的关系
Q4: 畅销商品
使用groupby()函数按商品分组
使用sum()函数计算每个商品的总销售量
使用sort_values()函数对销售量进行排序
选取销售量最高的商品作为畅销商品
使用柱状图展示畅销商品的销售量
Q5: 购买时间分布
使用groupby()函数按时间分组
使用count()函数计算每个时间段的购买次数
使用折线图展示购买时间分布情况
Q6: 用户满意度分析
使用groupby()函数按满意度分组
使用mean()函数计算每个满意度等级的平均购买量
使用柱状图展示满意度与购买量的关系
Q7: 促销活动效果评估
使用groupby()函数按促销活动分组
使用sum()函数计算每个促销活动的总销售额
使用柱状图展示不同促销活动的销售额对比
Q8: 用户购买行为模式识别
使用聚类分析方法识别用户购买行为模式
使用K-means算法对用户进行聚类
使用散点图展示不同聚类的用户特征
分析每个聚类的购买行为特征