导图社区 ChatGPT:又一个“人形机器人”主题
ChatGPT:又一个“人形机器人”主题的思维导图,内容有 ChatGPT:突破式的GPT新作、GPT的升级意味AI技术进步显著,打开万亿规 模AIGC的入口、ChatGPT横空出世,利好相关基础设施(算力 与存储、数据、算法)及应用(AIGC)、风险提示。
编辑于2023-04-06 21:17:35 江苏省这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
社区模板帮助中心,点此进入>>
这是一篇关于职场高效沟通工具箱的思维导图,主要内容包括:1.PREP 模型:高效沟通的黄金法则,2.职场表达利器:SCQA 工具应用,3.STAR 模型:用结构化表达点亮职场沟通之路,4.FOSSA模型:开启高效沟通的新钥匙,5.职场必修课:用 STORY故事模型打造高效沟通力,6.乔哈里视窗:解锁高效沟通与深度自我认知的密钥。
这是一篇关于目标与计划管理:为工作指引方向的思维导图,主要内容包括:用SMART设定工作目标,如何分解工作目标,如何做好计划,用PDCA做好计划管理。
这是一篇关于高效复盘:将经验转化为能力(1堂课让你学会复盘)的思维导图,主要内容包括:1.复盘前的准备工作 2.复盘的流程和技巧3复盘常用工具。
ChatGPT:又一个“人形机器人”主题
ChatGPT:突破式的GPT新作
1.1 ChatGPT:突破式的GPT系列新作,技术更好,应用更广
ChatGPT:突破性的对话式AI模型
ChatGPT是一款对话式AI模型,根据用户输入的文本,自动生成回复内容。2022年11月30日,OpenAI发布了对话式AI新模型ChatGPT。该模型使用简单,只需向ChatGPT文字提出需求,即可让其完成回答问题、书写代码、创作文本等指令。
ChatGPT的功能包括:交互,以及基于交互的文本/代码创造、信息检索等。实际应用上,ChatGPT等文本AI可能帮助文本创造类行业完成智能内容生成,并一定程度上替代搜索引擎。
ChatGPT:GPT系列新作,功能更全面,表现更类人
ChatGPT是GPT-3和GPT-4之间的过渡版本。GPT即生成型预训练变换模型(Generative Pre-trained Transformer),是解 决NLP(自然语言处理)任务的训练模型之一。该预训练模型基于Transformer架构(具有自注意力机制,可以捕捉句子中 的上下文关系),可以根据给定文本预测下一个单词的概率分布,从而生成人类可以理解的自然语言。ChatGPT从GPT-3.5 模型微调而来,Chat强调了其为了对话而优化,具有记忆能力,可以完成连续性对话。
从GPT-1到ChatGPT,使用更先进的训练模型、更海量的训练数据,功能越来越全面,表现越来越类人。
ChatGPT:应用空间广泛,市场规模可观
ChatGPT得到的关注空前。2022年12月5日,上线仅5天的ChatGPT用户数量突破100万,而GPT-3耗时将近24个月才达到该 用户规模。
以过往版本GPT-3为例,截止2021年3月,上线9个月的GPT-3已经有了300+ 应用客户,领域涵盖智能客服、教育与科研、游戏、搜索引擎等。出于更出色的表现和更高的关注度,ChatGPT及其背后 的GPT-3.5的应用空间有望较GPT-3更为广阔。
1.2 GPT-4:有望效果更优,成本更低,催化 更多应用场景
ChatGPT仍然有改进空间
当前偶尔可能生成不正确或荒谬 的信息;可能会有违反伦理道德的答案;由于其所基于的训 练数据库仅截止2021年(而非基于实时数据),回答可能已 经过时等
预计GPT-4效果更优、成本更低,催化更多应用场景落地
1.3 OpenAI:ChatGPT的源头公司
在AGI(通用人工智能)愿景的驱动下,OpenAI的AI能力全面。OpenAI当前模型几乎涉及所有需要解决自然语言/代码的理 解/生成任务的领域,其API(Application Programming Interface,应用程序编程接口,编程人员可以通过API调用相关 代码,而无需掌握代码本身)包括文本、代码、图像等五大类,可以用于完成自然语言问答、聊天、Python/SQL代码标注 /修改、食谱创作等具体任务
GPT的升级意味AI技术进步显著,打开万亿规 模AIGC的入口
2.1 技术上,GPT的升级意味着语言AI和AI整体的显著进步
GPT基于AI的语言技术领域。
AI的子领域包括计算机视觉、语言、语音、推理,不同子领域基于不同的底层技术(例如语言领域基于NLP,即自然语言处理),但训练算法在直觉上相通(例如视觉领域可以参考语言领域使用的Transformer改进自身的训练模型)。其中,GPT代表语言AI的一种实现方式。
ChatGPT的出现意味着语言AI和AI领域整体的显著进步。
GPT所基于的预训练模型Transformer在语言AI甚至AI整体领先,可 以实现低成本、高效率、大规模的训练;ChatGPT进一步使用RLHF算法,使得产出更加拟人
2.2 应用上,GPT的升级推动AIGC的发展,迎万亿市场规模
AIGC(AI Generated Content)即AI生产内容,利用AI技术赋能文本、音 频、视觉等高自由度、低门槛的内容生产。内容消费量增加,急需降低生产门槛、提升生产效率,AIGC是大势所趋
PGC、UGC受限于效率和成本,难以满足迅速增长的内容需求。PGC( Professinal Generated Content,专业生产内容,例如爱奇艺)依赖优质 的专业化团队完成内容生产或采购,内容生成量级有限、成本较高;UGC( User Generated Content,用户生产内容,例如抖音)依赖大体量的创作 用户来实现内容生产,内容生成量级大幅提升、成本较低,但内容质量良 莠不齐,高质量内容生成的效率和成本并未发生质变
2. 相比PGC、UGC,AIGC(AI Generated Content,AI生产内容,例如GPT系列)具有效率和成本上的优势
AIGC效率更高:截止2021年3月,推出9个月后的GPT-3日均文本生成量45亿,而2021年阅文集团新增文字量仅360亿, 仅相当于GPT-3 8天的文字内容生成量;
AIGC成本更低:目前OpenAI定价最高的文字模型达芬奇(基于GPT-3)为每750词约0.02美元,2021年阅文集团内容成本为17.74亿元(每750词约37元),是调用OpenAI的API完成相同文字量生产所需的成本(约672万元)的264倍。
理想状况下,如果阅文集团将2021年全年文字内容生产量(360亿)交给GPT-3,耗时8天即可完成,节约成本99%+, 毛利率空间几乎100%释放
GPT的升级增强了AIGC能力,释放更多潜在市场空间:GPT系列的不断升级,增强了AIGC在编程语言(代码生成、软件行为 生成)、自然语言(新闻撰写、文案创作、对话机器人、创作性文本)等方面的表现,我们离AIGC时代更进一步。
AIGC在内容生成中的渗透率将快速提升,应用规模快速扩增。根据Gartner《2021年预测:人工智能对人类和社会的影响》 ,到2025年AIGC产生的数据将占所有数据的10%,而该比例在2021年不足1%。而量子位智库根据现有技术及需求成熟度预测 ,2030年AIGC市场规模将超过万亿人民币。
ChatGPT横空出世,利好相关基础设施(算力 与存储、数据、算法)及应用(AIGC)
基础设施
算力与存储:如芯片、计算机等
高算力、海量训练数据是训练全球领先的AI模型的基础,推荐关注云基础设施和AI芯片。微软入资OpenAI后,2020年5月 ,微软宣布“专门为OpenAI打造世界排名前五的超级计算机之一”;同时,双方达成一项多年的合作协议,OpenAI开始接 入微软的Azure云平台开发AI技术。高算力的底层基础设施是完成对海量数据处理、训练的基础。海量数据汇集也为AI模 型提供强大的数据集支撑。例如GPT-3由互联网上大多数英文文本训练而成,整个英文维基百科只占它训练数据整体的 0.6%。 •
云计算提供了社会级的超大算力计算平台和海量数据存储平台。云计算在数字中国建设和数字经济发展中起着重要的基础 性、先导性和战略性作用,已成为经济社会数字化转型的基石,有望在政府、企事业单位和其他组织中广泛积累应用和数 据。–
地方政府方面
2022年10月28日《全国一体化政务大数据体系建设指南》中提出要整合构建标准统一、布局合理、管 理协同、自主可控的全国一体化政务大数据体系,并要求到2025年政务数据全部纳入目录管理;
央国企方面
加强国企的数据安全保障,强化对国企数据资源的监管。国资云是指由各地国资委牵头投资、设立、运 营,通过建设高安全防护水平的数据安全基础设施底座。
底层硬件来看,需要高算力的AI芯片。AI芯片即专门用于处理人工智能应用中大量计算任务的模块,近年来国家高度关注 人工智能芯片产业的发展,发布一系列产业支持政策,亿欧智库预测2025年中国AI芯片市场规模约为1780亿元,目前很多 企业还在发展初期
数据
数据
数据资源是人工智能技术产业创新发展的驱动力之一。
数据集作为数据资源的核心组成部分,是指经过专业化设计、采集 、清洗、标注和管理,生产出来的专供人工智能算法模型训练的数据。大数据的核心始终是面向海量数据的存储、计算、 处理等基础技术。
GPT-4或不再以“大”取胜,数据在精不在多,依靠提高模型效率和数据质量达成改进
此前OpenAI信奉“扩展假说”,即海量数据和大量算力是通往AGI的唯一路径。
但是,DeepMind的研究或意味着模型效率和数据质量的提升才是未来方向。DeepMind的研究成果表明,在参数数量少 一个数量级的情况下,模型依然可以获得与常规Transformer相当的性能,并在多个语言建模基准测试中获得最先进的 性能。这意味着,在当前文本AI模型已经普遍使用海量数据集的背景下,通过模型效率和数据质量的提高来改进AI性 能的路径或将取代依赖数据量提升的路径,进一步挖掘AI的潜力
关于GPT-4参数数量亦有两派预测:万亿级参数数量,以“大”取胜 vs 略高于GPT-3的参数数量,以“精”取胜,有 待GPT-4正式上线给出答案
未来数据类企业的竞争力或体现在数据质量,对数据清洗和标注提出较高要求
现有数据标注以人工标注为主,属于劳动密集型产业。随着机器学习不断完善,自动标注成为大趋势。
目前我国的数据标注与审核业务的参与者主要包括两类,一是人工智能公司内部的标注部门,二是商务流程外包公司
数据标注
数据标注是大部分人工智能算法得以有效运行的关键环节。
简单来说,数据标注是对未经处理过的语音、图片、文本、视 频等数据进行加工处理,从而转变成机器可识别信息的过程。在ChatGPT训练的三个阶段中,只有第三阶段不需要使用人工标注数据,而第一、第二阶段都需要大量的人工标注
算法:训练大模型和NLP
ChatGPT所基于的自然语言处理是AI的核心课题之一。
近两年,对话机器人使得与智能语音相关NLP产品迎来了发展机 遇。
艾瑞统计研究,2021年,中国NLP核心产品的市场规模为171 亿元,带动规模为450亿元,到2026年,核心产品规模将达到459 亿元,CAGR=24.8%,带动规模将超过1000亿元。
当前国内领先的对话交互类AI算法企业主要包括两类
以语音识别为核心业务的企业,延生到NLP领域,如科大讯 飞,从语音识别延生到语音合成、机器翻译、图文识别、图 像理解、阅读理解、机器推理等算法,并在消费者、智慧教 育、智慧城市、智慧司法、智能服务、智能汽车、智慧医疗 、运营商等领域实现深度应用
以NLP为核心业务,专注语义识别的企业,如拓尔思。拓尔 思是国内最早从事自然语言处理(NLP)研发的企业之一,在 语义智能领域具备自主可控的底层技术,可以提供预训练模 型和阅读理解等技术成果。
应用
文本创造
教育
关注在文/音/图/视频等AIGC领域布局的国内外公司
ChatGPT强大的交互和信息检索能力,对传统搜索引擎形成挑战,利空搜索引擎相关企业
微软或将ChatGPT应用于其搜 索引擎Bing,利空谷歌;且谷歌抢在OpenAI创建之前开源了其名下的TensorFlow人工智能引擎,OpenAI从创立起就和谷 歌存在着直接竞争关系。但是,由于ChatGPT潜在的收费可能,我们认为其尚不能完全取代传统搜索引擎。
微软:投资OpenAI,或成为AI时代最大玩家
风险提示
ChatGPT技术发展不完善、应用不及预期
若ChatGPT等技术发展不及预期,AIGC渗透率未能如期提升、应用场景受限,潜 在市场规模或无法释放。
AI基础设施不及预期
若AI基础设施不及预期,大模型训练或无法完成
AI伦理风险
AI可能会生产违反常规、违背法律和道德的内容,或帮助人类以作弊等形式完成违反常规、违背法律和道德 的行为