导图社区 AIGC介绍
AIGC详细介绍,AIGC是指利用人工智能技术来生成内容。通过训练大模型,利用已有的数据生成新的内容,如文本、图像、音频、视频等。
编辑于2024-03-01 19:52:12本合集包含10篇项目管理精品文章合集,包括:PMO战略管理、PMO如何管理项目经理工作、PMO如何管理危机项目、项目团队行动指南、用看板管理大型项目、项目集管理、项目进度管理、如何项目复盘、IPD流程管理、项目经理面试准备。非常具有收藏价值。
本合集包含一篇精品文章AIGC介绍和四款阿里云AI产品介绍。
本合集详细介绍了腾讯云计算产品,包括:云服务器CVM、批量计算、高性能应用服务、Batch、高性能计算平台、高性能计算集群、专用宿主机、GPU云服务器、裸金属服务器、清凉应用服务器。非常具有收藏价值。
社区模板帮助中心,点此进入>>
本合集包含10篇项目管理精品文章合集,包括:PMO战略管理、PMO如何管理项目经理工作、PMO如何管理危机项目、项目团队行动指南、用看板管理大型项目、项目集管理、项目进度管理、如何项目复盘、IPD流程管理、项目经理面试准备。非常具有收藏价值。
本合集包含一篇精品文章AIGC介绍和四款阿里云AI产品介绍。
本合集详细介绍了腾讯云计算产品,包括:云服务器CVM、批量计算、高性能应用服务、Batch、高性能计算平台、高性能计算集群、专用宿主机、GPU云服务器、裸金属服务器、清凉应用服务器。非常具有收藏价值。
AIGC
AIGC是什么
人工智能内容生成。即采用人工智能技术来自动生产内容
技术层面AIGC可分为三个层次
智能数字内容孪生
该技术旨在将现实世界中的内容进行智能增强与智能转译,更好的完成现实世界到数字世界映射。例如,我们拍摄了一张低分辨率的图片,通过智能增强中的图像超分可对低分辨率进行放大,同时增强图像的细节信息,生成高清图。再比如,对于老照片中的像素缺失部分,可通过智能增强技术进行内容复原。而智能转译则更关注不同模态之间的相互转换。比如,我们录制了一段音频,可通过智能转译技术自动生成字幕;再比如,我们输入了一段文字,可以自动生成语音,两个例子均为模态间智能转译应用。
【应用】:图像超分、语音转字幕、文字转语音等
智能数字内容编辑
智能数字内容编辑通过对内容的理解以及属性控制 ,进而实现对 内容的修改 。如在计算机视觉领域,通过对视频内容的理解实现不同场景视频片段的剪辑。通过人体部位检测以及目标衣服的变形控制与截断处理,将目标衣服覆盖至人体部位,实现虚拟试衣。在语音信号处理领域,通过对音频信号分析,实现人声与背景声分离。以上三个例子均在理解数字内容的基础上对内容的编辑与控制。
【应用】:视频场景剪辑、虚拟试衣、人声分离等
智能数字内容生成
智能数字内容生成通过从海量数据中学习抽象概念 ,并通过概念的组合 生成全新的内容 。如AI绘画,从海量绘画中学习作品不同笔法、内容、艺术风格,并基于学习内容重新生成特定风格的绘画。采用此方式,人工智能在文本创作、音乐创作和诗词创作中取得了不错表现。再比如,在跨模态领域,通过输入文本输出特定风格与属性的图像,不仅能够描述图像中主体的数量、形状、颜色等属性信息,而且能够描述主体的行为、动作以及主体之间的关系。
【应用】:图像生成(AI绘画)、文本生成(AI写作、ChatBot)、视频生成、多模态生成等
从生成内容层面AIGC可分为五个方面
1、文本生成
基于NLP的文本内容生成根据使用场景可分为非交互式与交互式文本生成。非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。交互式文本生成主要包括聊天机器人、文本交互游戏等。
【代表性产品或模型】:JasperAI、copy.AI、ChatGPT、Bard、AI dungeon等。
2、图像生成
图像生成根据使用场可分为图像编辑修改与图像自主生成。图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。图像自主生成包括端到端的生成,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。
【代表性产品或模型】:EditGAN,Deepfake,DALL-E、MidJourney、Stable Diffusion,文心一格等。
3、音频生成
音频生成技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可应用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可基于文本描述、图片内容理解生成场景化音频、乐曲等。
【代表性产品或模型】:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。
4、视频生成
视频生成与图像生成在原理上相似,主要分为视频编辑与视频自主生成。视频编辑可应用于视频超分(视频画质增强)、视频修复(老电影上色、画质修复)、视频画面剪辑(识别画面内容,自动场景剪辑)。视频自主生成可应用于图像生成视频(给定参照图像,生成一段运动视频)、文本生成视频(给定一段描述性文字,生成内容相符视频)。
【代表性产品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。
5、多模态生成
以上四种模态可以进行组合搭配,进行模态间转换生成。如文本生成图像(AI绘画、根据prompt提示语生成特定风格图像)、文本生成音频(AI作曲、根据prompt提示语生成特定场景音频)、文本生成视频(AI视频制作、根据一段描述性文本生成语义内容相符视频片段)、图像生成文本(根据图像生成标题、根据图像生成故事)、图像生成视频。
【代表性产品或模型】:DALL-E、MidJourney、Stable Diffusion等。
AIGC的核心技术有哪些
1、基础模型
模型名称 提出时间 应用场景 1、深度变分自编码(VAE) 2013年 图像生成、语音合成 2、生成对抗神经网络(GAN) 2014年 图像生成、语音合成 3、扩散模型(Diffusion Model) 2015年 图像生成 4、Transformer 2017年 语言模型 5、Vision Transformer(ViT) 2020年 视觉模型
变分自编码(Variational Autoencoder,VAE)
变分自编码器是深度生成模型中的一种,由Kingma等人在2014年提出,与传统的自编码器通过数值方式描述潜空间不同,它以概率方式对潜在空间进行观察,在数据生成方面应用价值较高。
VAE分为两部分,编码器与解码器。编码器将原始高维输入数据转换为潜在空间的概率分布描述;解码器从采样的数据进行重建生成新数据。
如上图所示,假设有一张人脸图片,通过解码器生成了多种特征,这些特征可以有“微笑”,“肤色”,“性别”,“胡须”,“眼镜”,“头发颜色”。传统的自编码器对输入图像编码后生成的潜在特征为具体的数值,比如,微笑=0.5,肤色=0.8等,得到这些数值后通过解码器解码得到与输入接近的图像。也就是说该张人脸的信息已经被存储至网络中,我们输入此人脸,就会输出一张固定的与该人脸相似的图像。 我们的目标是生成更多新的与输入近似的图像。因此,我们将每个特征都由概率分布来表示,假设“微笑”的取值范围为0-5,“肤色”的取值范围为0-10,我们在此范围内进行数值采样可得到生成图像的潜在特征表示,同时,通过解码器生成的潜在特征解码得到生成图像。
生成对抗网络(Generative Adversarial Networks,GAN)
2014年 Ian GoodFellow提出了生成对抗网络,成为早期最著名的生成模型。GAN使用零和博弈策略学习,在图像生成中应用广泛。以GAN为基础产生了多种变体,如DCGAN,StytleGAN,CycleGAN等。
GAN包含两个部分: 生成器:学习生成合理的数据。对于图像生成来说是给定一个向量,生成一张图片。其生成的数据作为判别器的负样本。 判别器:判别输入是生成数据还是真实数据。网络输出越接近于0,生成数据可能性越大;反之,真实数据可能性越大。 如上图,我们希望通过GAN生成一些手写体来以假乱真。我们定义生成器与判别器: 生成器:图中蓝色部分网络结构,其输入为一组向量,可以表征数字编号、字体、粗细、潦草程度等。在这里使用特定分布随机生成。 判别器:在训练阶段,利用真实数据与生成数据训练二分类模型,输出为0-1之间概率,越接近1,输入为真实数据可能性越大。 生成器与判别器相互对立。在不断迭代训练中,双方能力不断加强,最终的理想结果是生成器生成的数据,判别器无法判别是真是假。 以生成对抗网络为基础产生的应用:图像超分、人脸替换、卡通头像生成等。
扩散模型(Diffusion Model,里程碑式模型)
扩散是受到非平衡热力学的启发,定义一个扩散步骤的马尔科夫链,并逐渐向数据中添加噪声,然后学习逆扩散过程,从噪声中构建出所需的样本。扩散模型的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好,可以从纯噪声作为唯一输入,生成逼真的图片。 一个标准的扩散模型分为两个过程:前向过程与反向过程。在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。在反向过程中,利用一系列马尔可夫链在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复数据。 前向扩散过程,向原图中逐步加入噪声,直到图像成为完全随机噪声。
反向降噪过程,在每个时间步逐步去除噪声,从而从高斯噪声中恢复源数据。
扩散模型的工作原理是通过添加噪声来破坏训练数据,然后通过逆转这个噪声过程来学习恢复数据。换句话说,扩散模型可以从噪声中生成连贯的图像。 扩散模型通过向图像添加噪声进行训练,然后模型学习如何去除噪声。然后,该模型将此去噪过程应用于随机种子以生成逼真的图像。 下图为向原始图像中添加噪声,使原始图像成为随机噪声。
下图为从噪声中恢复的原始图像的变种图像。
应用:在扩散模型(diffusion model)的基础上产生了多种令人印象深刻的应用,比如: 图像超分、图像上色、文本生成图片、全景图像生成等。 如下图,中间图像作为输入,基于扩散模型,生成左右视角两张图,输入图像与生成图像共同拼接程一张全景图像。
产品与模型:在扩散模型的基础上,各公司与研究机构开发出的代表产品如下: DALL-E 2(OpenAI 文本生成图像,图像生成图像) DALL-E 2由美国OpenAI公司在2022年4月发布,并在2022年9月28日,在OpenAI网站向公众开放,提供数量有限的免费图像和额外的购买图像服务。 如下图,左图像为原始图像,右图像为DALL-E 2所生成的油画风格的变种图像。
子主题
Transformer
2017年由谷歌提出,采用注意力机制(attention)对输入数据重要性的不同而分配不同权重,其并行化处理的优势能够使其在更大的数据集训练,加速了GPT等预训练大模型的发展。最初用来完成不同语言之间的翻译。主体包括Encoder与Decoder分别对源语言进行编码,并将编码信息转换为目标语言文本。
采用Transformer作为基础模型,发展出了BERT,LaMDA、PaLM以及GPT系列。人工智能开始进入大模型参数的预训练模型时代。
Vision Transformer (ViT)
2020年由谷歌团队提出,将Transformer应用至图像分类任务,此后Transformer开始在CV领域大放异彩。ViT将图片分为14*14的patch,并对每个patch进行线性变换得到固定长度的向量送入Transformer,后续与标准的Transformer处理方式相同。 以ViT为基础衍生出了多重优秀模型,如SwinTransformer,ViTAE Transformer等。ViT通过将人类先验经验知识引入网络结构设计,获得了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,能够更好地学习和编码数据中蕴含的知识,正在成为视觉领域的基础网络架构。以ViT为代表的视觉大模型赋予了AI感知、理解视觉数据的能力,助力AIGC发展。
预训练大模型
虽然过去各种模型层出不穷,但是生成的内容偏简单且质量不高,远不能够满足现实场景中灵活多变以高质量内容生成的要求。
预训练大模型 的出现使 AIGC发生质变 ,诸多问题得以解决。大模型在CV/NLP/多模态领域成果颇丰,并如下表的经典模型。诸如我们熟知的聊天对话模型ChatGPT,基于GPT-3.5大模型发展而来。
计算机视觉(CV)预训练大模型 自然语言处理(NLP)预训练大模型 多模态预训练大模型 微软Florence(SwinTransformer) 谷歌Bert/LaMDA/PaLM OpenAI的CLIP/DALL-E OpenAI的GPT-3/ChatGPT 微软的GLIP Stability AI的Stable Diffusion
ChatGPT
ChatGPT是美国OpenAI公司在2022年11月发布的智能对话模型。截止目前ChatGPT未公开论文等技术资料。大多数的技术原理分析是基于InstructGPT分析。ChatGPT与GPT-3等对话模型不同的是,ChatGPT引入了人类反馈强化学习(HFRL:Human Feedback Reinforcement Learning)。
ChatGPT与强化学习:
强化学习策略在AlphaGo中已经展现出其强大学习能力。简单的说,ChatGPT通过HFRL来学习什么是好的回答,而不是通过有监督的问题-答案式的训练直接给出结果。通过HFRL,ChatGPT能够模仿人类的思维方式,回答的问题更符合人类对话。
ChatGPT原理:
举个简单的例子进行说明,公司员工收到领导安排任务,需完成一项工作汇报的PPT。当员工完成工作PPT制作时,去找领导汇报,领导在看后认为不合格,但是没有清楚的指出问题在哪。员工在收到反馈后,不断思考,从领导的思维方式出发,重新修改PPT,提交领导查看。通过以上多轮反馈-修改后,员工在PPT制作上会更符合领导思维方式。而如果领导在第一次查看时,直接告诉员工哪里有问题,该怎样修改。那么,下一次员工所做的PPT很大概率还是不符合要求,因为,没有反馈思考,没有HFRL,自然不会做出符合要求的工作。ChatGPT亦是如此。
ChatGPT的显著特点如下:
1)
主动承认错误 :若用户指出其错误,模型会听取,并优化答案。
2)
敢于质疑 :对用户提出的问题,如存在常识性错误,ChatGPT会指出提问中的错误。如提出“哥伦布2015年来到美国时的情景”,ChatGPT会指出,哥伦布不属于这一时代,并调整输出,给出准确答案。
3)
承认无知: 对于非常专业的问题或超出安全性范围,如果ChatGPT不清楚答案,会主动承认无知,而不会一本正经的“胡说八道”。
4)
支持连续多轮对话 :ChatGPT能够记住先前对话内容,并展开多轮自然流畅对话。
AIGC的应用场景有哪些
AIGC在传媒行业应用
如上图为AI在媒体行业应用架构,包括生成、审核、分发运营、创新应用以及媒资管理。以上架构总体上分为两部分:
AI内容生成(AIGC)与AI内容分析。 AIGC在媒体行业能做什么?
采集环节 编辑环节 播报环节 语音转文本 画质修复 AI数字人(AI合成主播) 写作机器人 画质增强 智能播报机器人 AI视频剪辑 视频字幕生成 视频封面生成 图文转视频
(1)采集环节
借助语音识别技术将语音实时转换为文本,压缩稿件生产过程中的重复性工作,提高内容生产效率。采用智能写作机器人,提升新闻资讯写作的时效性。
(2)编辑环节
采用AIGC技术对视频画质修复与增强,提升视频质量。此外,可利用AIGC技术对视频场景识别,实现智能视频剪辑。如人民日报社利用“智能云剪辑师”并能够实现自动匹配字幕、人物实时追踪与画面抖动修复等功能。2022冬奥会期间,央视视频通过AI智能内容剪辑系统,高效生产与发布冰雪项目视频集锦内容。
(3)播报环节
AI合成主播开创了新闻领域实时语音及人物动画合成的先河,只需要输入所需要播发的文本内容,计算机就会生成相应的AI合成主播播报的新闻视频,并确保视频中人物音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。
AIGC在影视行业应用
前期创作 中期拍摄 后期制作 剧本创作 虚拟场景生成 画质修复 画质增强 AI视频剪辑 人脸替换、人声替换
在前期创作阶段
,AIGC可通过对海量剧本进行学习,并按照预定风格生成剧本,创作者可进行二次筛选与加工,激发创作灵感,缩短创作周期。
在中期拍摄阶段
,可通过人工智能合成虚拟场景,将无法实拍或成本过高的场景生成出来,提升视听体验。比如,在拍摄前,进行大量场景素材收集与建模制作虚拟场景,演员在绿棚中进行拍摄,根据实时人员识别与抠图技术,将人物嵌入至虚拟场景中进行融合,生成最终视频。
在后期制作阶段
,可结合AIGC技术对视频画质进行增强,若视频中出现“劣迹艺人”等敏感人员可通过“人脸替换”、“人声替换”对视频进行编辑。此外,制作者可利用AI技术自动对视频片段进行剪辑,缩短视频预告片、片段集锦的制作时间。
AIGC在电商行业应用
在商品展示环节:
AIGC生成3D模型用于商品展示和虚拟适用,提升线上购物体验;
在主播打造环节:
打造虚拟主播,赋能直播带货;
在交易场景环节:
虚拟商城构建,智能聊天机器人,赋能线上和线下秀场加速演变,为消费者提供全新的购物场景。
AIGC在娱乐行业应用
全民娱乐:
在图像内容生成应用(人脸美妆、融合;黑白图像上色、图像风格转换、人像属性变换)
社交互动:
虚拟主播、虚拟网红、聊天机器人、聊天互动游戏。
AIGC在其他行业应用
在教育行业
:AIGC为教育工作者提供了丰富的教学工作与内容素材。比如,在通过数字人生成技术,可对历史人物进行生成并与之对话,提升课堂互动。再比如,通过ChatGPT生成创意性教学方案,提供更加广泛的授课思路。
在工业行业:
将AIGC技术融合工业设计软件CAD,Solidworks中,通过文本输入提示语生成,特定样式的机构模型供设计者参考。比如“设计一款卫星太阳能电池板可伸缩折翼机构”通过AIGC模型生成3D设计机构。
AIGC在内容生成行业的突破,将提升内容创作者,设计师,工程师,教育工作者等各行业人员工作效率与质量。同时,将加速企业数字化与智能化进程。
AIGC的产品形态有哪些
1、基础层(模型服务)
基础层为采用预训练大模型搭建的基础设施。由于开发预训练大模型技术门槛高、投入成本高,因此,该层主要由少数头部企业或研发机构主导。如谷歌、微软、Meta、OpenAI、DeepMind、Stability.ai等。基础层的产品形态主要包括两种:一种为通过受控的api接口收取调用费 ;另一种为基于基础设施开发专业的 软件平台收取费用
2、中间层(2B)
该层与基础层的最主要区别在于,中间层不具备开发大模型的能力,但是可基于开源大模型等开源技术进行改进、抽取或模型二次开发。该层为在大模型的基础上开发的场景化、垂直化、定制化的应用模型或工具。在AIGC的应用场景中基于大模型抽取出个性化、定制化的应用模型或工具满足行业需求。如基于开源的Stable Diffusion大模型所开发的二次元风格图像生成器,满足特定行业场景需求。中间层的产品形态、商业模式与基础层保持一致,分别为接口调用费与平台软件费
3、应用层(2C)
应用层主要基于基础层与中间层开发,面向C端的场景化工具或软件产品。应用层更加关注用户的需求,将AIGC技术切实融入用户需求,实现不同形态、不同功能的产品落地。可以通过网页、小程序、群聊、app 等不同的载体呈现。
总结:
基础模型与预训练大模型的发展,促使AIGC迎来质变期与大规模应用期,未来随着核心技术演进、产品形态丰富、场景应用多元化、生态建设的日益完善,AIGC将充分释放应用价值与商业潜力。