导图社区 巧克力工艺口味评分集
这是一篇关于巧克力工艺口味评分集的思维导图,主要内容包括:结果呈现,分析执行,大纲规划,数据探查,数据获取。
编辑于2025-02-11 17:09:58巧克力工艺口味评分集
数据获取
查看巧克力工艺口味评分数据集文件(chocolate_v2.csv)
数据探查
查看数据基本信息、前几行,了解数据结构和内容
大纲规划
数据预处理
可可含量与评分的关系
不同公司所在地的平均评分
主要味觉分布
分析执行
数据预处理:data_preprocessing函数用于处理数据中的缺失值,这里简单地将味觉相关列的缺失值用空字符串填充。
def data_preprocessing(df): # 处理缺失值,这里简单地用空字符串填充味觉相关的缺失值 df['first_taste'] = df['first_taste'].fillna('') df['second_taste'] = df['second_taste'].fillna('') df['third_taste'] = df['third_taste'].fillna('') df['fourth_taste'] = df['fourth_taste'].fillna('') return df
可可含量与评分的关系:cocoa_percent_rating_relationship函数计算可可含量与评分的皮尔逊相关系数,并绘制散点图展示两者关系。
def cocoa_percent_rating_relationship(df): # 查看可可含量与评分的相关性,并保留两位小数 correlation = df['cocoa_percent'].corr(df['rating']).round(2) print(f'可可含量与评分的皮尔逊相关系数: {correlation}') # 设置图片清晰度 plt.rcParams['figure.dpi'] = 300 # 设置中文字体 plt.rcParams['font.sans-serif'] = ['WenQuanYi Zen Hei'] # 绘制散点图 plt.figure(figsize=(10, 6)) plt.scatter(df['cocoa_percent'], df['rating']) plt.xlabel('可可含量百分比') plt.xticks(rotation=45) plt.ylabel('评分') plt.title('可可含量与评分的关系散点图') plt.show() return correlation
不同公司所在地的平均评分:avg_rating_by_location函数计算不同公司所在地的平均评分,找出平均评分最高和最低的五个公司所在地,并绘制柱状图进行展示。
def avg_rating_by_location(df): # 计算不同公司所在地的平均评分,并保留两位小数 avg_rating = df.groupby('company_location')['rating'].mean().round(2).reset_index() top_five_locations = avg_rating.nlargest(5, 'rating') bottom_five_locations = avg_rating.nsmallest(5, 'rating') print('平均评分最高的五个公司所在地:') print(top_five_locations) print('平均评分最低的五个公司所在地:') print(bottom_five_locations) # 绘制柱状图 plt.figure(figsize=(12, 8)) plt.subplot(2, 1, 1) plt.bar(top_five_locations['company_location'], top_five_locations['rating']) for i, v in enumerate(top_five_locations['rating']): plt.text(i, v, str(v), ha='center') plt.title('平均评分最高的五个公司所在地') plt.ylabel('平均评分') plt.subplot(2, 1, 2) plt.bar(bottom_five_locations['company_location'], bottom_five_locations['rating']) for i, v in enumerate(bottom_five_locations['rating']): plt.text(i, v, str(v), ha='center') plt.title('平均评分最低的五个公司所在地') plt.xlabel('公司所在地') plt.ylabel('平均评分') plt.tight_layout() plt.show() return top_five_locations, bottom_five_locations
主要味觉分布:taste_distribution函数将所有味觉信息合并,统计每个味觉出现的次数,找出出现次数前十的味觉并绘制柱状图。
def taste_distribution(df): # 将所有味觉信息合并到一个 Series 中 all_tastes = pd.concat([df['first_taste'], df['second_taste'], df['third_taste'], df['fourth_taste']]) # 统计每个味觉出现的次数 taste_counts = all_tastes.value_counts().reset_index(name='次数').head(10) print('出现次数前十的味觉:') print(taste_counts) # 绘制柱状图 plt.figure(figsize=(10, 6)) plt.bar(taste_counts['first_taste'], taste_counts['次数']) for i, v in enumerate(taste_counts['次数']): plt.text(i, v, str(v), ha='center') plt.xlabel('味觉') plt.xticks(rotation=45) plt.ylabel('出现次数') plt.title('出现次数前十的味觉柱状图') plt.show() return taste_counts
结果呈现
子主题
注意!!!chocolate_v2.csv数据文件路径
 
  
  
  
  
  
  
  
  
 