导图社区 GPT 产业梳理:GPT-1 到 ChatGPT(MM整理)
GPT 产业梳理:GPT-1 到 ChatGPT(MM整理), ChatGPT的三个阶段打造智能对话交互式 AI 模型,一起来看看吧。
编辑于2023-04-01 12:35:50 江苏省这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
社区模板帮助中心,点此进入>>
这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
GPT 产业梳理:GPT-1 到 ChatGPT(MM整理)
ChatGPT:三个阶段打造智能对话交互式 AI 模型
GPT-1 阶段:开启生成式预训练模型时代
在 Transformer 架构基础上,引入微调训
GPT-1 仅保留了 Transformer 架构的解码器部分。解码器共有 12 层(layer), 整个模型相比Transformer 更加简单,训练速度更快,GPT- 1 更擅长自然语言处理生成类任务
GPT-1 的训练过程包括预训练和微调两个阶段
1) 第一阶段:采用多层 Transformer 模型的解码器(Decoder) 为语言模型, 进行基于大文本语料库的高容量无监督学习。
2)第二 阶段:在做下游任务时,当输入的问题具有结构化特征,例如有序的句子对或文档、问题 和答案的三元组,首先将不同类的问题转换为不同的输入形式,再针对不同任务采用不同 数据集进行微调训练。
训练结果上看,GPT- 1 在常识推理、问题回答、文本 蕴涵等任务上分别比对比方法进步了 8.9% 、5.7%和 1.5%。
GPT-2 阶段: 无监督训练替代有监督训练
GPT-2:取消微调,用更大参数和数据集进行 zero-shot 学习
GPT-2 用更大的训练集尝试 zero-shot 学习
GPT-2 希望通过海量数据和庞大的模型参数训练出更为通用的模型,无需经过特定的数据集训练也能解决各类问题,即 zero-shot learning (零次学习),提高模型的泛化能力。为了达到这一目的,GPT-2 采用了涵盖 800 万网页、40GB 大小的数据集 WebText 进行预训练,并将模型参数量最大提升到 15 亿,模 型层数从 GPT- 1 的 12 提升为 48。
GPT-2 在架构上与 GPT-1 基本保持相同,在处理下游问题时取消了微调
在 WebText 数据集下,随着 GPT-2 模型参数规模的扩大,其 zero-shot 学习能力更强,且优于部分已有模型。
GPT-2 在多个下游任务中表现出色
GPT-2 在 zero-shot 学习的基础上,超过了大多数的无监督方法,略逊于有监督的方法;在文本总结任务中的效果接近有监督的模型
OpenAI:得到微软注资,关注技术滥用问题
微软向 OpenAI 投资 10 亿美元,并提供独家云支持
OpenAI 出于对技术滥用问题的考虑,分阶段发布 GPT-2 完整版
GPT-3 阶段:性能不断突破, 开启商业探索
GPT-3:模型参数达 1750 亿, few-shot 进一步提高性能
Few-shot 取代 zero-shot,训练效果得到进一步加强
从多种训练基准训练结果看,few-shot 能够取得比 zero-shot 更好的准确度结果
GPT-3 架构基本不变,最大训练参数达 1750 亿
在架构上,GPT-3 与 GPT-2 基本保持一致,将 Transformer 从 48 层提升到 96 层。
GPT-3 训练数据集为多种数据集的混合
在训练期间,数据集的采样不与其大小成比例,而是质量更高的数据集采样频率更高,因此 CommonCrawl 和 Books2 数据集在训练期间采样次数少于1次,其他更高质量的数据集采样次数为 2-3 次,以换取更高质量的训练数据。
在大训练参数、few-shot 的加持下,GPT-3 准确性得到极大提高
对外提供 GPT-3 API,开启商业模式探索
OpenAI 发布 API,开启首次商业尝试,并授权给微软
CodeX:基于 GPT-3 的代码生成工具
Codex 是基于 GPT-3 在代码生成上的应用
2021 年 8 月,OpenAI 发布 Codex 通用代码生成模型,能够将自然语言转换为代码。Codex 是 GitHub Copilot 的主要构建块,支持Python、JavaScript、Go、Perl、PHP、Ruby、Swift 和 TypeScript 等十几种编程语言。Codex 可以通过 OpenAI API 使用,在初始阶段提供免费服务。
Codex 代码生成能力显著优于 GPT-3
InstructGPT:人类反馈强化学习技术加持下的“最强”GPT-3
InstructGPT 在 GPT-3 的基础上,引入基于人类反馈的强化学习(RLHF)技术
InstructGPT 的训练流程包括有监督微调、奖励模型训练和强化学习。架构上,InstructGPT与 GPT-3 基本相同。训练过程包括:
1)利用人类的标注数据(demonstration data)对 GPT-3 进行有监督训练
OpenAI 设计了包含大量提示样本的 prompt dataset,给出了不同类的任务描述;其次,委托标注团队对 prompt dataset 进行标注(本质就是人工回答问题);最后,用标注过的数据集微调 GPT-3,得到 SFT 模型(监督微调),该模型具备了最基本的预测能力。
2)通过 RLHF 的思路训练奖励模型 RM
首先用 SFT 模型去回答 prompt dataset 某个问题,通过收集 4 个不同的 SFT 输出获取 4个回答;其次,利用人工对 4 个回答的好坏进行标注和排序,排序的结果用来训练奖励模型 RM,让 RM 模型理解人类偏好。
3)通过训练好的 RM 模型和 PPO 算法优化 SFT 模型策略
再次让 SFT 模型去回答 prompt dataset 某个问题,通过近端策略优化(Proximal Policy Optimization,PPO)算法产生输出。然后,不再借助人工评估结果好坏,而是利用阶段 2训练的 RM 模型去对 SFT 模型的预测结果进行打分排序,即用“AI 训练 AI”。该阶段可以循环多次。
训练参数与 GPT-3 相比降低了超 100 倍
ChatGPT 阶段:各大互联网厂商争相推出类似产品
ChatGPT: 以对话方式交互的进化版 InstructGPT
ChatGPT 同样基于 RLHF 理念,从训练步 骤上看,ChatGPT 训练方法与 InstructionGPT 基本相同,区别仅在于在第一步利用人类标 注数据进行有监督训练时,InstructGPT 基于 GPT-3,而 ChatGPT 基于 InstructGPT。
ChatGPT Plus:商业模式二次探索
OpenAI 推出 ChatGPT Plus 服务,支持按月订阅
ChatGPT推出了 Plus 会员服务,收费标准为 20 美元/月。Plus 用户可以享受:1)当网站负荷过高时,有优先访问权;2)ChatGPT 响应速度更快;3)能第一时间体验新版功能。这是 OpenAI继推出 API 后第二次在商业模式上的探索。
微软继续加注 OpenAI,推出基于 ChatGPT 的新版 Bing 13
微软继续对 OpenAI 投资 100 亿美元,并扩大技术应用
发布基于 ChatGPT 的新版 Bing
2023 年 2 月 8 日,微软发布基于 ChatGPT 的新版 EDGEl2023 年 2 月 8 日,微软发布基于 ChatGPT 的新版 EDGEl浏览器和 Bing 搜索引擎,这是是微软与 OpenAI 技术最新结合的产品。在提供传统搜索内容的同时,用户可以与搜索引擎进行对话交流,获得更全面的答案。
各大互联网厂商均表示将推出类 ChatGPT 产品
谷歌发布 ChatGPT 对标竞品—Bard
Bard 由谷歌的大型语言模型 LaMDA(对话应用语言模型)提供支持。LaMDA(Language Model for Dialogue Applications)是谷歌于 2021年 5 月的 Google I/O 大会上提出的人工智能系统对话应用语言模型,具有 1370 亿参数,略少于 GPT-3,远多于 13 亿参数的 InstructGPT。LaMDA 可以利用外部知识源,专注于生成对话,类似 ChatGPT。其目的不是提供信息搜索,而是通过对自然语言问题的回答来帮助用户解决问题
国内互联网厂商纷纷推出类 ChatGPT 产品
风险提示
宏观经济波动
若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对 IT 投资产生负面影响,从而导致整体行业增长不及预期。
下游需求不及预期
若下游数字化需求不及预期,相关的数字化投入增长或慢于预期,致使行业增长不及预期。