导图社区 ChatGPT:深度拆解
关于ChatGPT:深度拆解的思维导图,介绍了 背景:发源于 OpenAI,成名于生成式语言、原理:AI 大模型里程碑式的胜利、模型:三个维度拆解 GPT 模型特征、应用:打开 AIGC 应用新局面等,一起来了解吧。
编辑于2023-03-20 18:04:02 江苏省这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
社区模板帮助中心,点此进入>>
这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
ChatGPT:深度拆解
背景:发源于 OpenAI,成名于生成式语言
OpenAI :一家非营利性人工智能研究公司
2015 年在旧金山成立
创始人
埃隆·马斯克与硅谷孵化器 Y Combinator 投资人山姆·阿尔特曼等人联合创立
目标是以最有可能造福全人类的方式推进人工智能,而不受财务回报需求的约束
微软持续增资,布局生成式 AI 技术
2019年
OpenAI 收到微软注资 10 亿美元,就 Azure 业务开发人工智能技术。
2022年
发布 ChatGPT 的自然语言生成式模型,带来更大潜在应用空间。
2023年
微软拟对 OpenAI 追加数十亿美元投资,利用自身算力基础设施资源发挥与 OpenAI 业务协同效应,深入布局生成式 AI 技术。
OpenAI 产品发布密集,产品涵盖音频制作、图像生成和语言对话人工智能。
OpenAI 当前盈利主要通过付费API 接口,并尝试拓展盈利模式。
据路透社数据,OpenAI 2022 年收入数千万美元
2023 年 1 月试点推出订阅制 ChatGPT Plus,收取每月 20 美元的会员费以得到各类优先服务。
原理:AI 大模型里程碑式的胜利
ChatGPT 采用监督学习+奖励模型进行语言模型训练。
3个步骤
1)训练监督策略模型
在 ChatGPT 模型的训练过程中,需要标记者的参与监督过程。
ChatGPT 会从问题数据集中随机抽取若干问题并向模型解释强化学习机制
标记者通过给予特定奖励或惩罚引导 AI 行为,
通过监督学习将这一条数据用于微调 GPT3.5 模型。
2)训练奖励模型。
借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准。
1、抽样出一个问题及其对应的几个模型输出结果;
2、标记员将这几个结果按质量排序;
3、将排序后的这套数据结果用于训练奖励模型。
3)采用近端策略优化(Proximal Policy Optimization)进行强化学习
核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为 Off-policy,即将在线学习转化为离线学习。
先通过监督学习策略生成 PPO 模型
经过奖励机制反馈最优结果后,再将结果用于优化和迭代原有的 PPO 模型参数。
往复多次第二阶段和第三阶段,从而得到参数质量越来越高的 ChatGPT 模型。
3个特点
1)采用的是单一大模型
GPT 模型之前的 AI 模型
主要是针对特定应用场景需求进行训练的小模型
通用性差、训练数据少、适应范围小
ChatGPT
语义理解、推理、协作等方面表现出了更强能力。
ChatGPT 的成功,验证了参数增长、训练数据量增大,对 AI 模型的重要意义。
2)采用的是小样本学习(Few-shot Learning)方法
小样本学习
在给定有限信息和较少训练数据的情况下,尝试对总体规律进行理解和预测, 这一过程类似于“学习如何去学习”。
在 ChatGPT 中的应用
解决了大模型数据标注工作量巨大的问题,是模型得以迅速迭代的基础。
AI 预训练模型在不必使用大量标记的训练数据,就可以建立起比较通用的泛化能力。
3)采用人类反馈微调监督学习
InstructGPT
仅用 13 亿个参数就实现了比 1750 亿个参数的 GPT-3 更优的输出解雇,显著提升了真实性、减少了有害信息的输出。
ChatGPT
由 GPT3.5(即 InstructGPT)改进而来
ChatGPT 主要变化在于采用了人类反馈机制,对监督学习过程进行微调。本质上来说,无论是大模型还是小样本学习,解决的目标都是提升训练的效率,但真正令ChatGPT 实现结果准确、合理的关键技术,还是在于加入了人类反馈。
模型:三个维度拆解 GPT 模型特征
维度一:单一大模型
ChatGPT 使用单一大模型,积累强大底层通用能力
对比传统 AI 训练模型
能使用的数据来源更加广泛,可用数据量更大
对标注要求更低,只需要对数据进行微调甚至不调就可以用于训练
输出的能力更加泛化通用,在语义理解、逻辑推理、文本表达等方面能力更出众。
从通用到特殊,单一大模性具备丰富的垂直领域应用潜力
大模型训练需要大算力支持,ChatGPT 坐拥丰富算力资源。
AI 大模型会带来特性涌现和模型同质化问题
1)同质化。尽管基础模型基于标准的深度学习和迁移学习,但其规模导致了新能力的涌现,其在众多任务中的有效性激励了同质化的产生;
2)特性涌现。尽管基础模型即将被广泛部署,但目前研究者对其如何工作、何时失效以及其涌现的特性衍生了何种能力尚缺乏清晰的理解
举例
机器学习
算法从数据案例中学会了如何执行(自动推断)
使学习算法变得同质化(例如,逻辑回归)
深度学习
涌现了用于预测的高级特征
深度学习使模型架构同质化(例如,卷积神经网络架构)
基础模型
涌现了上下文学习等高级功能
大模型使得下游模型同质化(例如,下游模型一定会继承上游模型缺陷)
ChatGPT 通过引入监督学习,有效填补了大模型同质化漏洞。
从本质上来说,上下游模型同质化的问题无法被完全解决,OpenAI 选择的方向是尽可能填补缺陷漏洞。从 GPT-3.5 版本开始,OpenAI 团队在模型中引入了监督学习过程。
AI 大模型加持下,ChatGPT 有望加速迭代
1)大模型训练效果取决于数据量, 目前 ChatGPT 仅使用 2021 年之前的数据,随着更多数据的加入,模型底层语言能力有望进一步加强;
2)大模型具备能力迁移潜力,垂直领域应用或将加速 ChatGPT 进化;
3) OpenAI 背靠微软,大算力资源为模型演进提供保障;
4)随着软件用户规模持续扩张,用户自身的反馈又会带来类似监督学习的效果,或将带动 ChatGPT 加速迭代。基于此,我们看好 AI 大模型及 ChatGPT 未来应用前景,商业化落地或将加快。
维度二:预训练语言模型
拆解模型来看,主要关注预训练语言模型和 Transformer 特征抽取器。
预训练语言模型无需人工标签,为 NLP 研究带来质变
预训练属于迁移学习的范畴,其思想是在利用标注数据之前,先利用无标注的数据,即纯文本数据训练模型,从而使模型能够学到一些潜在的跟标注无关的知识,最终在具体的任务上,预训练模型就可以利用大量的无标注数据知识,标志着自然语言处理模型进入了大规模复制阶段。从实现原理上来看, 预训练语言模型是通过计算某个词句 w 的出现概率,即 p(W),在给定词句的情况下,可以自行计算出后一个词或句出现的概率。
GPT 的训练可以在无人工标签的基础上进行,通过连续不断地预测、迭代参数、再预测,模型最终实现语言能力的学习。
预训练语言模型与神经网络语言模型的区别在于初始参数的选取
上一代神经网络语言模型训练思想是基于后向传播(BP)算法:先通过对网络模型参数进行随机初始化,然后通过优化算法去优化模型参数。而预训练语言模型的初始参数并非随机,而是先通过一个任务训练得到一套模型参数,再以这套参数对模型初始化,进而继续反复训练。
预训练语言模型的内生优势
1)训练高效性,神经网络语言模型中随机的初始参数加大训练复杂度,而预训练能得到较好的初始化参数,后续训练更加高效。
2)语言通用性,经过预训练的语言模型更接近通用语言表示(Universial Language Representations),适应于多领域实际应用场景。
3)提供正则化,由于模型复杂性高,神经网络模型的优化算法易陷入过度拟合,导致实际测试表现远低于样本测试表现。预训练模型相当于一个正则化过程,仅通过几步精修得到模型,很大程度上避免了过度拟合。
预训练语言模型的应用优势:对数据处理程度要求低,可利用海量无标注数据
大多数 基于统计方法和神经网络的自然语言处理模型中都需要大量已标注的数据集来满足模型训 练,但并非所有的训练任务都能获取足够的标注信息。同时,随着模型复杂度和参数数量 的增加,大多数数据集的大小难以支持训练。而预训练模型能先通过利用无标注的数据训 练模型,解决传统模型无法解决的实际问题。而且由于预训练语言模型可以利用现实世界 中大量的纯文本数据训练,扩大了其训练范围和规模,拥有发掘大模型(Foundation Models) 的潜力。
对比两代预训练语言模型,二代模型具备上下文交互能力。
维度三:Transformer 特征抽取器
Transformer 是大模型高效运行的根基
语言模型仍然不是 GPT 模型的最底层,语言模型之下还需要有具体的调度架构和运算逻辑,来实现最终的计算,直接决定了 AI 大模型能否实现高效率的运算和学习。
Transformer 模型较 RNN 并行计算能力更强,提升了大模型训练效率
Transformer 模型最早由谷歌在 2017 年提出,属于深度学习模型架构的一种,特点是在学习中引入了注意力机制。对比循环神经网络(RNN)来看,Transformer 与 RNN 均对输入数据,如自然语言等, 进行顺序处理,并主要应用于翻译和文本摘要等工作。但 Transformer 与 RNN 不同的是, Transformer 中的注意机制可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词。因此,与 RNN 相比,Transformer 可以实现更大规模的并行计算,大大减少了模型训练时间,使得大规模 AI 模型得以被应用。
Transformer 解码模块是 GPT 模型的核心要建
从 Transformer 架构细节来看,核心是由编码模块和解码模块构成,而 GPT 模型只用到了解码模块。拆解模块大致分为三层: 前馈神经网络层、编码/解码自注意力机制层(Self-Attention)、自注意力机制掩码层。其中,自注意力机制层主要作用在于计算某个单词对于全部单词的权重(即 Attention),掩码层则需要在这一过程中帮助模型屏蔽位于计算位置右侧尚未出现的单词,最后输出的向量结果输入前馈神经网络,完成模型参数计算。
解码模块大量堆叠,最终形成 GPT 模型完整架构。
在 GPT 模型中,解码模块相当于基本架构单元,通过彼此堆叠的方式,拼凑成最终我们看到的 GPT 模型底层架构。
1)解码模块的数量决定了模型的规模,GPT-1 一般有 12 个模块,GPT-2 有 48 个,GPT-3 则有 96 个模块;
2)针对模块输出的结果还需要进行 Finetune(对模型进行调优)
应用:打开 AIGC 应用新局面
技术新:Transformer 架构+RLHF,NLP 领域迎来新突破
Transformer 架构逐步成为主流
ChatGPT 模型优势在于语言生成
2017 年后,应用范围最广的是 BERT 和 GPT 模型以及在这些模型基础上做出的改进模型。BERT 模型在结构上是一个多层的双向 transformer 的Encoder 模型,GPT 是由 12 个 Transformer 中的 Decoder 模块经修改后组成。相比来说, BERT 模型的核心优势在于自然语言理解,GPT 模型的核心优势在于自然语言生成。BERT 的改进模型有 RoBERTa、ALBERT 等,GPT 的改进模型有 GPT2、GPT3、ChatGPT 等。随着人工反馈增强学习(RLHF)方法的加入,模型能够在与人类标注者互动时通过人类的反馈进行强化学习。人类标注者则可对初始模型生成的结果进行修改、比较和排序,帮助模型进行训练。ChatGPT 在效果上取得重大突破,在语言生成领域形成优势。
应用新:生成式 AI 应用于创造性工作
生成式 AI 应用于创造性工作
分析型 AI(Analytical AI)
在给定数据的情况下,通过分析找出规律和关系,并在此基础上生成报告或给出建议。比如通过追踪客户行为以刻画用户画像,并基于此进行个性化推荐,实现精准营销
生成式 AI(Generative AI)
可以通过学习已有数据和信息生成多种形式的新的内容,在创造性工作的领域进行应用,目前生成式 AI 的应用主要包括生成文本、图像、对话、音视频、代码、3D 等。
ChatGPT 是典型的生成式AI
ChatGPT 通过学习大量语料并通过生成模型生成文本回答, 其基础 GPT-3 是一个大型语言模型。该模型通过对大量语料的预训练,学习了语言的语法、语义、语用等特征,并通过对语言的生成任务进行微调,以适应各种应用场景。目前,除了 ChatGPT 外,有大量 AIGC 应用产品基于 GPT-3 模型。
商业化潜力:巨头纷纷发力,商业化潜力较大
ChatGPT 用户突增彰显商业化潜力,内容生成或成 ChatGPT 重要应用
公司官网,ChatGPT 从 0 到 100 万用户数仅花费 5 天,速度远超其他平台。
从活跃用户角度,据Similarweb,2023 年 1 月期间,ChatGPT 平均每天约有 1300 万独立访客,超出 22 年 12月一倍。用户数量的快速扩大反映了 ChatGPT 具备较强的商业化潜力
国内外巨头持续发力布局 AIGC
风险提示
宏观经济波动。
若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对 IT 投资产生负面影响,从而导致整体行业增长不及预期。
下游需求不及预期。
若下游数字化需求不及预期,相关的数字化投入增长或慢于预期,致使行业增长不及预期。