导图社区 微软AI人工智能认证考试
这是一篇关于微软AI人工智能认证考试的思维导图,主要内容包括:AI基础知识,了解机器人学习,计算机视觉的基础知识,面部识别基础知识,光学字符识别(OCR)基础知识,使用语言服务进行文本分析,语言服务回答问题的基础知识,语言理解基础知识,Azure AI 语音,生成式AI基础,考试出题占比。
编辑于2025-07-12 21:44:17这是一篇关于微软AI人工智能认证考试的思维导图,主要内容包括:AI基础知识,了解机器人学习,计算机视觉的基础知识,面部识别基础知识,光学字符识别(OCR)基础知识,使用语言服务进行文本分析,语言服务回答问题的基础知识,语言理解基础知识,Azure AI 语音,生成式AI基础,考试出题占比。
这是一篇关于镜头语言与拍摄技巧的结构思维导图,阐述了拆片是短视频的核心,景别,运镜和基础构图的内容,感兴趣的小伙伴可以看看。
企业投入成本生产产品/服务;第三方顾客支付价格,直接顾客零价格得到产品/服务、企业零投入,第三方企业投入提供产品和服务的成本,直接顾客可以得到较低价格的产品/服务。
社区模板帮助中心,点此进入>>
这是一篇关于微软AI人工智能认证考试的思维导图,主要内容包括:AI基础知识,了解机器人学习,计算机视觉的基础知识,面部识别基础知识,光学字符识别(OCR)基础知识,使用语言服务进行文本分析,语言服务回答问题的基础知识,语言理解基础知识,Azure AI 语音,生成式AI基础,考试出题占比。
这是一篇关于镜头语言与拍摄技巧的结构思维导图,阐述了拆片是短视频的核心,景别,运镜和基础构图的内容,感兴趣的小伙伴可以看看。
企业投入成本生产产品/服务;第三方顾客支付价格,直接顾客零价格得到产品/服务、企业零投入,第三方企业投入提供产品和服务的成本,直接顾客可以得到较低价格的产品/服务。
微软AI人工智能 认证考试
AI基础知识
AI简介
什么是AI
AI就是一种模仿人类行为和能力的软件
AI的常见工作负载
机器学习
它通常是AI系统基础, 也是我们“教”计算机模型进行预测并根据 数据得出结论的方法
计算机视觉
相机
视频
图像
通过他们直观的解释世界的AI功能
自然语言处理
计算机理解
书面
口头语言
做出相应的AI功能
文档智能
管理
处理
使用表单
文档中大量数据
有关的AI功能
知识挖掘
从大量通常非结构化数据中 提取信息以创建可搜索的只是存储的AI功能
生成是AI
以各种格式
自然语言
图像
代码
等
AI的风险与挑战
偏差可能会影响结果
例如
贷款审批中因训练数据中的偏差 而产生性别歧视
错误可能会造成伤客
例如
自动驾驶遇到系统故障 引发碰撞
数据可能被暴露
例如
医疗诊断机器人使用敏感患者数据进行训练 这些数据存储不安全
解决方案可能并不适用于所有人
例如
家庭自动化助手不为视 觉障碍用户提供音频输出
用户必须信任复杂系统
例如
一个基于AI的金融服务工具 提供投资建议,这些建议的基础是什么?
谁对AI驱动的决策负责?
一个无辜的人因为基于面部识别的证据而被判有罪 如果这个人无罪,那谁该为此负责?
负责任的AI
公平
AI提供应该公平对待所有人, 创建的模型应该毫无偏见的对待所有人
包容
AI系统应该成为人们的有力助手,并与人互动
隐私和安全
AI系统应该保护并尊重隐私
透明度
AI 系统应该是可理解的,应让用户能充分了解系统的用途 工作方法以及局限性
二者密不可分
可靠和安全
AI系统应可靠且安全地运行
对以上5点要有问责制度
应有相关人员对AI系统负责
追究相关人员的责任
可以对AI系统做出的决策进行推翻
比如
我用AI判断了一个人是罪犯,但是实际上不是只是长的很像而已 那么我们就有问责机制去推翻AI系统做出的这类决策
了解机器人学习
什么是机器学习
基础
机器学习的起源
统计
数学建模
机器学习基本概念
使用过去观测到的数据来预测为止的结果或值
基本术语
特征
给定的
参数
数据
模型
通过训练得到的运算逻辑
标签
根据给定的
参数
数据
通过运算得到的结果
机器学习类型
监督式
用于确定过去观测值中特征与标签之间的关系来训练模型 以便将来可以预测特征的未知标签
回归
基于包括特征和已知标签的训练数据来预测数值标签
例如
我们预测未来10年的海平面的高度
高度是模型
凡是基于以往的数据推测将来数值的 我们使用回归模型(回归算法)
分类
监督式机器学习的一种形式 其中标签表示一个分类或类
二元分类
用于训练模型 该模型可预测单个的两个可能标签之一(二选一)
多元分类
用于预测观察结果属于多个可能的类中的一个
区别
分类算法
我们需要提前知道我们对结果分为多少个类
聚类算法
我们无法提前知道我们要分为多少个类
非监督式
涉及使用仅包含特征值且没有任何已知标签的数据来训练模型。
集群
聚类分析
基于观察值的数据值或特征的相似性 将观察值分组到群集中
例如
根据人口统计的属性和够买行为 确定类似客户的分组 比如:我喜欢买衣服、我喜欢美食,每个人都有不同的习性 我们在对他们进行分组的时候,无法提前预知要分成多少个类, 我们只能通过边观察边规定的方式,我们就要用到此算法
Azure 机器学习步骤
基本步骤
准备数据👇
准备数据、清理无效数据
指定行列👇
指定标签列,选定结果所在行
分割数据👇
随机分割数据
训练数据
验证数据
执行训练👇
使用训练数据、训练模型
验证评估👆
验证训练的模型结果,决定是否再次迭代训练
反复迭代的过程 一直到模型可以满足我们的需求👉
发布模型
计算机视觉的基础知识
计算机视觉的重点是创造解决方案,使AI的应用程序能够“看到”并理解世界
看到
图像
相机
等媒介
理解
通过看到的信息理解归纳出来
概念
Azure AI 视觉服务
分析图像
光学字符识别(OCR)
从图像中提取文本
生成图像描述文字和说明
分析图像、评估检测到的对象, 并生成可人工读取的短语或句子来描述 在图像中检测到的内容
检测图像中数千个常见物体及位置
属性
框起来
分类
相似度
标记图像中的视觉特征
意义
便于日后解锁
训练自定义模型
图像分类
基于包括特征和已知标签的训练数据来预测数值标签值
拿几张图同时放在一起 然后在用一张图交给他这个是什么 以后能让他从几张图中立刻找出特征进行分类
对象检测(物体检测)
最重要的应用之一
物体检测模型检测图像中的物体并对其进行分类 返回边界框坐标来定位每个物体
可以进行二维、三维空间定位
面部识别基础知识
了解人脸分析
使用算法来定位和分析图像或视频内容中的人脸
用途
安全性
社交媒体
智能监视
广告
失踪人员
身份验证
识别内容
人脸检测 👇
通常通过返回范围框坐标来形成以人脸为中心的矩形,通常通过返回范围框坐标来形成以人脸为中心的矩形
人脸分析 👇
面部特征可用于训练机器学习模型返回其他信息
其他信息:面部的状态,喜怒哀乐等
如
鼻子
眼睛
眉毛
嘴唇
等面部特征
面部识别 👇
面部分析的进一步应用是训练机器学习模型 从面部特征中识别已知个体 简单来说:通过面部的特征识别你是谁
Azure 人脸分析入门
人脸服务
Azure AI 视觉提供人脸检测和一些基本人脸分析工能
例
图像周围返回边框坐标
Azure AI 视频所引器,它可用于检测和识别视频中的人脸
Azure AI 人脸,它可提供预生成算法来探测,识别和分析人脸
配饰
眼镜
头部姿势
口罩
遮挡
模糊
曝光
干扰
要负责人的是适用 (开放工能)
要负责任的使用
开放工能
检测人脸在图像中的位置
确定人员是否佩戴眼镜
确定是否有任何人脸被
遮挡
模糊
受干扰
曝光过度/不足
限制使用
能够比较人脸相似性
能够识别图像中指定的人
存在信息泄露风险 需要像Azure申请使用
Azure 官方提供的服务资源
人脸服务资源
人脸服务使用的限制
图片格式
JPEG
PNG
GIF
BMP
文件大小
≤6MB(兆)
人脸大小范围
36*36像素~4096*4096像素
其他极端问题
极端的人脸角度
强光和遮挡
可能会影响人脸的检测
如
遮挡人脸的物体
Azure AI服务
综合体,是多种AI技术服务结合使用的
光学字符识别(OCR)基础知识
概念
用于读取图像中的文本 这是人工智能(AI)将图像中的字词处理成 计算机可读文本的功能
作用
数字化记笔记
数字化历史文档
扫描支票
数字化医疗记录
Azure AI视觉入门
Azure AI 视觉的OCR引擎
Azure AI 视觉服务能够从图像中提取计算机可读文本
OCR支持的类型
图像
JPG
JPEG
PNG
等
格式特殊,即可以作为图片处理,也可以作为文本处理
TIFF(相机格式)
如何使用
图片→OCR→返回结果
读取API(应用程序编程接口)返回结果
页数
每页文本一个,包括内面大小和方向信息
行数
一个页面上的文本行数
字数
一行文本的字数,包括边界和文本自身
使用语言服务进行文本分析
了解文本分析
Azure AI 语言是 Azure AI 服务产品的一部分,可对非机构化文本(类似文章,没有很明显机构化逻辑的)执行高级自然语言处理
基本工能
命名实体识别
可识别
任务
地点
事件
等
还可以自定义此工能以提取自定义类别
“实体”的概念
虚拟的或实在的物体 一个词只要能够表示某一样物体 或者表示某一个概念的情况下 我们都叫它实体
如
日期
时间
物体
电话号码
公司名称
等
通常情况下,一篇文章中所有的名词基本上都是实体
实体链接
文章里看到的链接
个人身份信息(PII)检测
比如
健康状态
违法记录
信用记录
可识别个人敏感信息,包括个人健康信息(PHI)
语言检测
可识别文本的语言,并返回语言代码 文章是用中文?英文?还是法文写的
比如
返回“EN”表示英语
可以检测出用什么语言编写的
情绪分析和观点挖掘
可以评估文本并返回每个句子的情绪分数和标签
用于检测
社交媒体
客户评价
论坛讨论
等
中的正负面情绪
该服务分为3个类被返回情绪分数
正面
中性
负面
提供介于0和1之间的分数
靠近0
负面情绪
靠近1
正面情绪
中间的0.5
不确定的情绪
可以根据得到的值更靠近哪一个 从而得到用户的情绪究竟是哪一个
例如
用户评价: 我们昨晚在这家餐厅吃晚饭, 我注意到的第一件事是工作人员。 很有礼貌,我们受到了友好的欢迎, 并立即被带到我们的餐桌前就坐餐桌很干净, 椅子很舒服,食物也很棒。
文档情绪
正面
正面分数
0.90
中性分数
0.10
负面分数
0.00
正面分数>中性分数>负面分数
用户评价: 我们在这一家餐厅的用餐经历是 我有史以来最糟糕的经历之一, 服务很慢,食物也很糟糕, 我再也不会在这家餐厅吃饭了。
文档情绪
负面
正面分数
0.00
中性分数
0.10
负面分数
0.90
负面分数>中性分数>正面分数
汇总
对一段话或者一段文章进行汇总 可以通过识别最重要的信息来汇总文本
一段话
一段文章
关键短语提取
可以列出非结构化文本的主要概念,提取识别文本中的要点
主要用于汇总主要观点
我们共进晚餐庆祝生日并获得了美妙的体验,我们受到了热情的欢迎,并立即被宋代到餐。做就做。这里的氛围轻松,食物美味服务周到,如果你也喜欢美味的食物和周到的服务,真应该来这个地方试试。
关键提取
庆祝生日
美妙的体验
食物美味
服务周到
晚餐
表
氛围
地方
提取的是
短语
词语
其他新功能
实体链接
可识别已知实体以及维基百科的链接
通用常见的网页地址或文本链接
www.baidu.com
跳转到百度
文本分析入门
语言服务回答问题的基础知识
了解问题解答
对话式AI描述了支持在AI代理与人之间进行对话的解决方案, 通常,对话式AI代理称为机器人 问题解答支持需要自动聊天元素的自然语言AI工作负载 通常,问题解答用于生成影响客户查询的机器人应用程序
与机器人互动方式
wed 聊天
电子邮件
社交媒体平台
语言服务&Azure 机器人服务
创建问答知识库的工具
使用 Azure AI Language Studio 来
创建
训练
发布
管理问题
解答项目
如何创建自定义问题解答知识库
定义问题和答案→Azure AI Language Studio 输入系统 → 系统自动学习
测试题目 不停的向我们的问答知识库提问 从而测试问答知识库是否达到了我们的需求
创建问题和答案方式
从现有的常见问题解答文档或网页生成
手动输入和编辑
问答知识库要点
可以通过添加其他措词来预测这个问题的不同提问方式
可以为项目中的问题分配替代措辞,来帮助合并具有相同含义的问题
Azure 机器人服务构建机器人
机器人就是搬运工,只负责传递信息
创建和部署知识库
机器人将其传递给用户
机器人连接渠道
Web聊天
电子邮件
Microsoft Teams
其他常用通信介质
语言理解基础知识
语言理解基础
概念
Microsoft Azure 通过 Azure AI 语言服务支持对话语言理解
Azure AI 语言的对话语言理解功能可以完成许多类型的任务
命令和控制
端到端对话
企业支持
语言理解的核心概念
陈述
言语是用户可能说的一句话而你的应用程序必须进行解读示例
例
打开风扇
开灯
实体
虚拟的或实实在在的物体
例
打开风扇
开灯
意向
意图是用户语言中表达的目的或目标
例
打开风扇
开灯
多意图(意向)示例
“无”意图说明
应该考虑始终使用“无”意图,帮助处理未映射所输入的任何语句的语句
“无”意图被认为是回退,通常用于在用户的请求与其他任何意图都不匹配时,向用户提供通用响应。
描述对话语言理解
Azure AI 语音
语音简介
Azure AI 语音通过语音识别及(语音)合成提供语音转文本和文本转语音功能
什么是语音识别
语音识别可提取口语并将其转换为可处理的数据
声音识别成文字
语音的模型
声学模型
可将音频信号转换为音素(特定声音的表示形式)
语言模型
通常使用统计算法将音素映射到单词,该算法根据音素预测最可能的单词序列
用途
为录制的视频或实时视频提供隐藏式字幕
自动备注听写
为电话呼叫或会议创建脚本
确定要进一步处理的目标用户输入
了解语音识别及合成
语音合成涉及让数据发出声音,通常通过将文本转换为语音来实现
语音合成的解决方案
要朗读的文本
用于读出语音的声音
语音合成的用途
生成对用户输入的语音回答
在免手动场景下朗读电子邮件或短信
为电话系统创建语音菜单
在公共场所(如火车站或机场广播通知)
Azure 上的语音入门
Azure AI 语音服务
语音识别
语音转文本API
API
网络访问接口
语音合成
文本转语音API
适用于Azure AI语音的Azure资源
语音资源
如果仅计划使用Azure AI 语音,或者要将资源的访问和计算与其他服务分开管理,请选择此资源类型
Azure AI服务资源
如果打算将Azure AI 语音与其他Azure AI服务组合使用,并且你希望同时管理这些服务的访问和计费,请选择此类服务
语音转文本API
Azure AI 语音转文本API将音频实时或批量听录为文本格式 音频源可以是来自麦克风或音频文件的实时音频流。
实时听录
实时语音转文本使你能够从音频流中听录文本
批量听录
并非所有语音转文本方案都是实时的,可将录音存储于文件共享 远程服务器甚至Azure存储上,你可以指向具有共享访问签名(SAS)URI 的音频文件并一步接收听录结果。
文本转语音API
文本转语音API可将文本输入转换为音频语音, 该语音可通过计算机扬声器直接播放或写入音频文件
该服务包括支持多种语言和区域发音 的多种预定义语音
利用神经网络克服语音合成在语调方面听起来更加自然的语音
生成式AI基础
什么是生成式AI?
生成式AI应用程序接受自然语言输入, 并以自然语言、图像或代码各种格式返回适当的响应。
生成式AI应用范围
自然语言生成
要生成自然语言响应
图像生成
成式AI应用程序可以解释自然语言请求并生成适当的图像
代码生成
成式AI应用成可以在帮助软件开发人员编写代码
大语言模型
自然语言(NLP)可以处理的任务
确定情绪或以其他方式对自然语言文本进行分类
比较多个文本源的语义相似性
汇总文本
生成新的自然语言
Transformer 模型组件
编码器块
用于创建训练词汇的语义表示形式
把人话进行加密,转化成为计算机可识别的编码
解码器块
用于生成新的语言序列
把计算机计算完的语言编码翻译成人话
什么是Azure Open AI
Azure Open AI 服务是Microsoft 的云解决方案,用于
部署
定义
托管
大型语言模型
它将Open AI 最前沿的模型和API 与 Azure 云平台的安全性和可伸缩性结合在一起
微软的Azure 云和 Open AI 合作 退出的Azure 云+Open AI的这么一个服务
Azure OpenAI 包含的模型
GPT-4 模型
GPT-3.5模型
文字数字向量
DALL-E模型
什么是助手?
概念
助手通常集成到其他应用程序中, 使用户可以从生成AI模型中获得常见任务的帮助, 助手可以帮助完成
初稿
信息合成
战略规划
等
助手=数字员工
通过一时工程改进生成式AI响应
生成式AI 应用程序反回的响应质量不仅取决于模型本身 还取决于为其指定的提示类型。 提示工程一词描述提示的改进过程。
解释
我们可以通过提示词工程(提示工程)去优化AI做出的一些反应
AI 响应
AI为我们做出的回答
改进生成AI响应(提示工程)
系统消息
提示工程技术包括定义系统消息, 该消息通过描述期望和约束来设置模型的上下文
就是在系统中提前设置好对AI的要求。能说什么不能说什么, 来实现对描述的一个期望,和对回答的一个约束,这个是系统消息的作用
编写有用的提示
通过明确说明你想要的回答类型
比如:针对抖音写一个文案/你给我编写去南京旅游10个景点的列表
提供示例
LLM(大型语言模型)通过支持零样本学习,可以在无先前示例的情况下形成响应, 但你还可以提供一次性学习提示,其中包括一个或多个所属的输出示例
我们先要在我们的系统中设定它为我们回答的事例 比如:在我们的系统当中设定你可以这么回答我,然后给它一个简单的示例
落地数据
提示可以包括提供上下文的落地数据
比如:你需要人工智能帮你生成电子邮件的摘要 可以在提示词当中增加电子邮件文本以及用于汇总的电子邮件文本的说明
考试出题占比
人工智能工作负载和注意事项
20%~25%
Azure 上机器学习和基本原理
25%~30%
Azure 上的计算机视觉
15%~20%
Azure 上自然语言处理(NLP)