导图社区 LV1数据清洗课程全图(无二维码)
无数据
PowerBI数据清洗核心功能课程全图,每天一点点进步亿点点,简约而不简单,简约让BI更简单。
编辑于2023-05-30 22:55:02 四川省
PowerBI 简约派
|
LV1数据清洗
商
业
智
能
分
析
培
训
计
划
更
高
效
的
Power
BI
使
用
技
巧
全
功
略
每天一点点
进步亿点点
简约而不简单
简约,让BI更简单
结尾
PowerBI简约派全产品介绍
7天入门 训练营
预计5月上线首期训练营,内容包含入门PowerBI视频教程、已上线LV1-LV8的纸质版一图文档、7天免费PowerBI AI助手、一份免费可视化模板。
知识圈
全免费鹅圈子,所有用户均可加入知识圈,在知识圈内获取免费的PowerBI模板与素材。
PowerBIAI助手
加入会员可获取PowerBI AI助手长期使用权限
LV1 数据清洗
现已完成更新,核心内容为Power Query数据清洗技巧。
LV2 数据建模
现已完成更新,核心内容为关系建模、DAX公式讲解。
LV3 数据 可视化
现已完成更新,核心内容为可视化基础/高级/进阶操作以及一套可视化模板
均已上线小鹅通
LV4 可视化 模板
预计5月上线,全年更新10套可视化模板
LV5 数据分析 专项案例
预计7月上线,重点讲解业务数据分析逻辑以及如何用PowerBI实现
LV6 Excel BI
预计8月上线,内容为Excel配合PowerBI快速完成双模型的高效技巧。
LV7 企业经营模型
预计年底上线,内容为讲解企业经营全景图以及背后的价值。
LV8 PowerBI Pro
预计24年上半年上线,将联合企业部署专家完成课程录制。
6
数据清洗实战案例
全国人口数据清洗案例
案例价值:该案例是多个非结构化表格快速完成数据清洗的典型案例,通过案例的实操,可以快速学习对应重复的非结构化表格,如何通过一步步按钮完成数据清洗,并在设置新建参数、创建自定义函数和调用自定义函数的方式,完成批量数据清洗。
详细操作扫描二维码获取视频教程。
通过API高德获取经纬度 案例
案例价值:该案例是通过高德API服务,快速获取经纬度数据的内容,该案例主着重是理解通过Power Query的web服务,设置动态API链接后,完成批量的数据获取与合并。
详细操作扫描二维码获取视频教程。
6
数据清洗实战案例
快速清洗学生 成绩表
案例价值:该案例是二维表转换为一维表的典型案例,在各行业工作中都非常实用。案例中使用到了填充、添加自定义列、删除列、重排序、删除行、转置、提升标题、重命名、逆透视、按分隔符拆分列。
详细操作扫描二维码获取视频教程。
5
M语言入门数据清洗技巧
认识高级编辑器
使用场景:在添加新建参数的时候,以及修改对应代码的时候,可以用高级编辑器快速查看全部代码内容,完成快速修改。
其他内容:主要注意M公式的语法结构,一个步骤都是一段代码,都会以步骤名称 = 具体公式内容为结构展示,结尾以”in“去表达返回哪个步骤,即最后返回的内容并不一定是最后一步的结果。
常用 M语言 公式
使用场景:Excel.Workbook与Csv.Document这两个M公式多用于多表批量合并,主要作用是减少按钮合并文件时自动生成的转换文件,加快后期运行效率。
其他内容:推荐长期使用PowerBI的用户掌握这两个常用的M公式,对后期模型的运行效率有极大的帮助。
特别关注:若是使用Csv.Document后出现乱码,请使用: Csv.Document([Content], [Encoding=936])
M语言 自学建议
使用步骤:
1. 新建空白查询,在编辑框内输入= #shared
2. 在生成列表后,点击转换为表
3. 根据表内容,筛选需要的M公式,这里以Excel.Workbook为例。
4. 筛选后点击function即可调用函数,输入对应参数即可调用M公式。
使用场景:该方式包含所有M公式,可通过文字内容、带入参数的方式,在PQ中学习M公式。
4
进阶数据清洗技巧-3招
新建参数
使用步骤:
1. 导入查询,使用基础数据清洗、高级数据清洗完成所有数据清洗。
2. 在查询空白处点击邮件,选择新建参数,进入新建参数界面。
3. 根据参数需求,设置对应内容,一般设置为文本格式。
4. 找到需要加入参数的步骤,打开M公式编辑框,将需要替换成参数的部分内容使用&符号完成链接。
使用场景:在M语言公式带入动态参数时可用新建参数,可根据用户需求动态选择内容后,自动刷新结果,同时可配合自定义函数,生成一键动态的批量公式,快速完成复杂工作。在将PowerBI文件发送给别人时,快速输入文件路径时非常有用。
其他内容:新建参数多以文本格式展示,在M语言公式中直接以&符号完成链接即可。
创建 自定义 函数
使用步骤:
1. 先对导入查询的完成新建参数的关联,若未关联新建参数,无法生成自定义函数。
2. 点击查询后,选择创建函数。
3. 输入函数名称,并确认函数的参数内容。
4. 生成自定义函数,在输入框输入参数内容,并点击调用。
5. 生成新表,完成重命名即可。
使用场景:可快速生成多参数的表格,并且可以输入不同的参数,快速完成不同内容表格的筛选与清洗。
其他内容:下一节的调用自定义函数需要先完成创建才能进行。
调用 自定义 函数
使用步骤:
1. 完成新建参数、创建自定义函数,并准备一张包含相关参数内容的表。
2. 在新增的参数表上调用自定义函数。
3. 根据参数内容选择对应列/输入文字参数。
4. 点击添加自定义函数的Table列,该列中每一行包含一个表,点击展开按钮,即可完成批量清单和合并。
使用场景:对于重复复杂的清洗工作,可用新建参数+创建自定义函数+调用自定义函数的方式快速完成,类似于录制宏并调用宏的操作。
其他内容:第6章的通过高德API获取经纬度数据,就是此办法的基础上完成的。
3
高级数据清洗技巧-6招
条件列
使用场景:可使用条件列功能在PQ中设置IF判断公式,无需写任何公式即可完成,且可快捷完成多个IF判断的嵌套制作。
其他内容:条件列的返回内容除了固定的文本内容外,还可以设定为返回其他列的内容。同时条件列的判断条件中有包含选项,可通过模糊查询,快速完成IF判断。
自定义列
使用场景:可通过自定义列完成简单的加减乘除,同时可将字段直接引用进行计算,即成本率=产品成本/销售金额,选定对应列即可完成。
其他内容:自定义列也是快速完成M公式写作的途径。
3
高级数据清洗技巧-6招
追加查询
使用场景:在获取数据的时候,使用文件夹可批量做多表合并,若是已经单独导入至PQ中后,需要使用追加查询完成多表合并。
其他内容:追加查询可在原表上进行追加,也可以当前表生成新查询后,再做追加。
合并查询
使用场景:学会合并查询,数据处理的效率将极大的提升。因为合并查询是超级“VLOOKUP”。只要是需要用到VLOOKUP的,都可以用合并查询,同时合并查询可一次性完成多列的查找匹配。重点关注红色圈内的字段类似VLOOKUP的第一个参数,蓝色圈内的字段类似VLOOKUP的第二个参数起始列,合并查询无需设置查找第几列,可同时查找多列内容。
其他内容:合并查询除了替代VLOOKUP以外,还可以通过其他5种不同的联接种类进行不同的设置,以及还可以通过设置模糊匹配选项,设置不同模糊等级的方式进行查询,详细内容可查看视频教程。
逆透视
使用场景:在获取到的数据属于二维表时,即可使用逆透视功能将二维表转换为一维表。逆透视提供逆透视选定列,以及逆透视其他列,根据逆透视的列数进行选择。
其他内容:二维表是既有行也有列,类似于透视表通过行列标签进行筛选数据;一维表只有列,每一列为独立的数据内容,一般为数据库与清单内容。在PowerBI的底层运作中是以列式数据库运作,所以所有加载到模型中的数据必须为一维表。逆透视是PowerBI不可替代的功能。
填充
使用场景:在很多手工表格中,会有合并单元格,尤其是行列标题经常出现合并单元格,数据加载到PQ中后,合并单元格只会保留第一个数据,其他全部为null,这是就要用到填充。
其他内容:填充分为向下填充,将根据当前列靠前的内容向下进行填充,以及向上填充,根据当前列靠前的内容向上进行填充,同时填充会以已有数据作为填充节点不会产生填充冲突。
2
基础数据清洗技巧-20招
对行计数
使用场景:可在PQ中快速对数据量进行统计。
分组依据
使用场景:分组依据类似Excel中透视表仅以行标签统计数据,可用于快速统计分类汇总数据。
其他内容:可在高级选项中同时添加多个分组计算值。
复制引用
使用场景:在PQ查询上点击右键,即可选择复制/引用。在需要新增相同表,而不想重头导入制作时可使用。
其他内容:复制为复制一份相同的新查询,新查询与旧查询之间没有关联;引用为复制一份相同的新查询,但新查询是在旧查询的基础上进行关联,即旧查询新增步骤后,新查询也会发生变化。使用前需评估后需求再确定如何操作,避免后续模型出现问题。
启用加载 启用刷新
未启用加载
未启用刷新
使用场景:在PQ数据加载时,可启用/关闭加载或启用/关闭刷新。主要用于优化模型运行效率时使用,
其他内容:若未启用加载,查询将不会加载PowerBI数据模型中,即后续建模将无法使用到该查询;若未启用刷新,该查询将无法通过PowerBI主页的刷新按钮进行一键刷新。
2
基础数据清洗技巧-20招
第一行 作为标题
使用场景:部分Excel表格导入后,Excel中的第一行并未成为标题,而是第一行内容,这时需要用到该功能。尤其是手工Excel,常常出现这类问题。
其他内容:与第一行作为标题作为对比的,还有将标题作为第一行,可将标题退回到第一行内容进行整理。
筛选
使用场景:将表格加载到PQ中后,每一列都将自动生成筛选按钮,筛选方式大致类似Excel中筛选。
其他内容:PQ中的筛选无法取消筛选,只能进行删除步骤。
删除列
使用场景:在删除多余列内容时,使用该功能,与Excel不同的是无法撤销删除列与行,只能删除步骤。
其他内容:PQ中提供了删除其他列,即仅保留选定的列,其他列全部删除。
删除 重复项
使用场景:在删除多余行内容时,使用该功能,同时可删除重复项,类似于Excel中的删除重复项操作。
其他内容:以单列作为重复判断依据的话,选择单列即可,若以多列作为重复判断依据的话,可用Ctrl/shift多选列进行删除。
删除 空白项
使用场景:在删除多余行内容时,使用该功能,可根据列中的空白内容进行删除。
修改数据类型/ 检测数据类型
使用场景:可以对PQ中的列内容进行批量格式修改。
其他内容:PQ默认打开自动修改未结构化的列类型,在部分情况将出现数据格式错误。可取消自动检测未结构化的列数据,再配合检测数据类型进行手动检测。
替换值
使用场景:类似Excel中批量替换值,但需按照列进行统一替换,或者所有列统一替换。
移动列
使用场景:与Excel的剪切+粘贴不同,PQ中可直接鼠标左键单击列后不放开鼠标直接拖动到对应位置。
其他内容:还可在移动单个列后,修改M公式中的文字顺序,即可完成快速的多列移动。
拆分列
使用场景:拆分列分为按分隔符和按字符数两种方式,与Excel中的分列内容类似,但不同之处会自动删除原列新增两个拆分列内容。
其他内容:拆分列还可以进行同一条件多次拆分,比如2023-4-18,按“-”重复拆分,将直接拆分为三列新数据:2023、4、18,效率比Excel的分列更快。
重命名列
使用场景:双击即可对列标题进行重命名。
其他内容:多列重命名可在一条M公式中完成,故建议在所有清洗步骤完成后,最后进行统一的重命名列,可优化PQ运行效率
日期
使用场景:PQ中提供多种日期快速修改功能,年、月、季度、周、天等,每种又提供了不同的选项。
其他内容:在不会使用数据建模日期表的情况下,可使用重复列+日期转换功能,快速将日期分别转换为年、月、日,用于后续做日期数据分析。
转置
使用场景:转置功能可快速将行列进行调换,转置前需评估行数,否则转置无法正常运行,或运行效率较慢。
其他内容:转置+向下填充可快速对不规则的列标题进行结构化调整,一般对手工采用此办法清洗,详见视频教程。
前言
数据清洗的作用与价值
作用
1. 数据连接和整合:
Power Query 可以使你轻松连接多个数据源,并将它们整合到一个数据模型中。
例如,你可以从 Excel 工作簿、CSV 文件、数据库、Web API 等多个数据源中提取数据,然后对其进行清洗和整合。
从而在数据建模中进行关联,完成多维分析,可连接和整合收集到的各种类型数据。
2. 数据处理和清洗:
Power Query 可以帮助你进行数据的处理和清洗。
例如去除重复行、替换值、填充空值、拆分行、合并表格等操作,在 Power BI 中,这些操作可以通过 Power Query 的直观界面和一系列内置函数来实现。
3. 数据转换和格式化:
Power Query 提供了许多强大的转换和格式化数据的功能。
例如分组、聚合、排序、透视表格等操作。这些功能可以让你在 Power BI 中更轻松地对数据进行处理,以便可视化和探索数据。
价值
1. 数据整合:
在现代商业环境中,数据通常存在于多个来源,并且可能以不同的格式和结构存储。
Power Query 可以帮助数据专业人员从不同的数据源中提取数据,创建单个视图,以使数据更易于分析和使用。
2. 数据质量:
数据质量是任何数据分析和决策的重要基础。
Power Query 可以帮助数据专业人士,自动化数据清洗和质量保证,通过提高数据准确性和完整性,保证数据的质量。
3. 性能提升:
传统的数据分析方法可能需要占用大量的时间和资源,而 Power Query 旨在提高分析的速度和效率。
Power Query 提供了一系列性能优化措施,如过滤器应用、列删除等方法,能够最大限度地减少处理时间,提高数据分析的效率。
1
获取数据
一、获取单个Excel/Csv的方法
获取单个Excel文件
第一步
方式1
主页点击Excel文件图标
方式2
主页点击获取数据-Excel工作簿
方式3
Power Query编辑器-新建源-Excel工作簿
第二步
选择对应Excel工作簿
第三步
选择对应需要加载的Sheet工作表
可使用√按钮完成多选Sheet同时加载的效果
并点击确定,完成加载
获取单个Csv文件
第一步
方式1
主页点击获取数据-文本/CSV
方式2
Power Query编辑器-新建源-文本/CSV
第二步
选择对应Csv工作簿
第三步
核实Csv转换格式,避免出现乱码
M语言内容中有解决Csv乱码的办法
点击确定完成加载
二、文件夹批量获取相同字段内容的Excel/Csv文件
文件夹批量获取数据
第一步
存放相同字段的清单
文件夹中的Excel/Csv文件的列标题必须一致。
第二步
主页点击获取数据-更多-文件夹
也可点击Power Query中的新建源-更多-文件夹
第三步
点击合并并转换数据
选择示例文件以及Sheet文件
点击确定完成批量获取,并自动完成多表批量合并
三、更多种类的数据获取
前35种数据获取类型,可点击获取数据-更多查看所有类型