导图社区 【AIGC】6个AIGC应用图谱
随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。 亿图以内容生成模态作为视角,涵盖了AIGC在图像生成、音频生成、视频生成、三维生成、语言生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,分别介绍我国AIGC不同产业在商业化落地过程所面临的挑战和对前景的展望。
编辑于2025-02-10 15:40:35随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。 亿图以内容生成模态作为视角,涵盖了AIGC在图像生成、音频生成、视频生成、三维生成、语言生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,分别介绍我国AIGC不同产业在商业化落地过程所面临的挑战和对前景的展望。
消费零售行业数字化解决方案,旨在帮助企业构建数字化运营的完整数据体系,实现数据驱动的决策支持。 方案围绕数字化转型的三个阶段,从数据管理到经营数字化,再到管理数字化,提供全面的建设路径和目标支持。 通过整合企业内外数据,构建大数据处理能力,实现全渠道、全业务链条的打通,提升企业运营质量和效率。 确保企业在产品、服务、资产、组织等各环节实现数字化管理和运营。通过实施该方案,企业将能够构建起一个高度集成、响应迅速、智能分析的数字化管理体系,从而在激烈的市场竞争中保持领先。
随着AI技术,特别是自然语言处理、深度学习和大语言模型的成熟,AI在内容生产中的能力显著增强,贯穿构思、生成、优化至发布的全流程,成为内容产业升级的关键动力。数字化内容已成为主流信息传播方式,对高质量、大规模及个性化内容的需求激增。AI创意内容生成应用因此大量涌现,极大提升内容生产效率。AI的跨模态能力促进多媒体内容融合创新,在内容生成、管理、分发中提供自动化支持,构建了更高效灵活的内容创作模式。 亿图带你了解下!
社区模板帮助中心,点此进入>>
随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。 亿图以内容生成模态作为视角,涵盖了AIGC在图像生成、音频生成、视频生成、三维生成、语言生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,分别介绍我国AIGC不同产业在商业化落地过程所面临的挑战和对前景的展望。
消费零售行业数字化解决方案,旨在帮助企业构建数字化运营的完整数据体系,实现数据驱动的决策支持。 方案围绕数字化转型的三个阶段,从数据管理到经营数字化,再到管理数字化,提供全面的建设路径和目标支持。 通过整合企业内外数据,构建大数据处理能力,实现全渠道、全业务链条的打通,提升企业运营质量和效率。 确保企业在产品、服务、资产、组织等各环节实现数字化管理和运营。通过实施该方案,企业将能够构建起一个高度集成、响应迅速、智能分析的数字化管理体系,从而在激烈的市场竞争中保持领先。
随着AI技术,特别是自然语言处理、深度学习和大语言模型的成熟,AI在内容生产中的能力显著增强,贯穿构思、生成、优化至发布的全流程,成为内容产业升级的关键动力。数字化内容已成为主流信息传播方式,对高质量、大规模及个性化内容的需求激增。AI创意内容生成应用因此大量涌现,极大提升内容生产效率。AI的跨模态能力促进多媒体内容融合创新,在内容生成、管理、分发中提供自动化支持,构建了更高效灵活的内容创作模式。 亿图带你了解下!
CogVideo
实现原理: CogVideo是基于自回归方法的大规模文本-视频生成模型,将图像生成模型CogView2应用于文本-视频生成实现高效学习,通过预测并不断拼接前一帧的递归方式来生成视频。 优缺点: 优点:此模型支持中文prompt,多帧率分层训练的方法能够更好地理解文本-视频的关系,生成的视频看起来更加自然。 缺点:对输入序列长度存在限制。
产品易用性挑战
视频生产速度、便捷度、交互体验内容性与交互性的融合度
稳定可控挑战
时长控制、内容控制、有限数据的利用与训练、生成结果与过程的调整
素材版权、隐私安全、伦理道德
合规应用挑战
视频风格迁移
● 影视作品艺术性表现 ● 广告风格转换
● 影视/广告效果优化 ● 老电影、珍贵影像资料修复 ● 安防监控、医学影像质量提升
视频增强
● 虚拟场景、角色、特效生成 ● 电影预告片生成 ● 视频广告生成 ● 动态人体结构、疾病模型生成
视频生成
● 影视后期剪辑、特效处理 ● 短视频素材剪辑、特效添加
视频编辑
● 安防监控预警、交通智能化管理 ● 营销内容标签生成、情感分析 ● 影视分析
视频内容识别
● 帧之间的过渡效果 ● 动作的连续性 ● 画面的流畅度 ● 场景的平滑切换
连贯性
● 高分辨率 ● 场景和人物的真实感 ● 清晰丰富的画面细节 ● 视频内容的逻辑性
● 视频长度可变可控 ● 与给定描述的关联性 ● 视频属性与视频元素可控可编辑
可控性
逼真度
主流模型实现原理及优缺点
● 主流模型:
Imagen-Video
Gen
实现原理: Imagen-Video是在Imagen模型基础上开发的基于文本条件生成视频模型,模型通过多个扩散模型的组合,先根据文本prompt生成初始视频,再逐步提高视频的分辨率和帧数来生成视频。 优缺点: 优点:生成的视频具有高保真度、可控性和世界知识,支持生成各种艺术风格的各种视频和文本动画,并具有对3D对象理解能力。 缺点:级联模型采用的并行训练方式所需要计算资源较高。
实现原理: Gen模型通过潜在扩散模型学习文本-图像特征,可以根据给定的文本提示或参考图像生成新的视频,或根据原始视频+驱动图像进行视频风格转换等多种任务。 优缺点: 优点:此模型在视频渲染和风格转换方面具有较好的表现,生成的视频艺术性和图像结构保持能力较强,因此可以更好地适应模型定制要求。 缺点:Gen模型在生成结果的稳定性方面仍然存在局限。
● 国内外代表模型:
是否开源
所属机构
简介
模型
未开源
基于扩散模型的文本-视频生成模型,优点是生成速度、视频画质较好,具备对多种艺术风格和3d对象的理解能力
Imagen Video
Make-a-Video
Meta
未开源
无需文本-视频数据,使用文本-图像数据训练实现视频生成,提高了生成视频的时间和空间分辨率
NUWA-XL
微软亚洲研究院
已在GitHub开源
基于Diffusion over Diffusion架构的超长视频生成模型,视频质量和连续性较好,并能大幅减少推理时间
CogVideo
清华&智源
已在HuggingFace开源
大规模文本-视频预训练模型,多帧率分层训练策略能够更好地对齐文本和视频,大规模训练数据对生成视频的质量有明显提升
自回归 扩散模型阶段
GAN/VAE Flow-based 生成阶段
图像拼接 生成阶段
视频 生成
● 通过前景和背景解耦、运动和内容分 解、图像翻译等方法改进生成效果 ● 视频质量仍然较低
● 自回归模型:帧的预测生成,连贯性较好,但效率低、错误易积累 ● 扩散模型:将文生图架构迁移至视频生成,保真度较高,但资源消耗大
● 静态图像拼接形成视频流 ● 简单易用,但视频质量低、连贯性差
影视游戏场景制作、广告宣传、数字人
视觉后期特效
影视剪辑、视频换脸
典型应用
Transformer-TTS
实现原理: Transformer-TTS是将Transformer结构进行结合应用到TTS系统中的端到端语音生成模型。具体而言,Transformer-TTS通过引入多头注意力机制构造编码器-解码器结构来提高训练效率,使用音素序列作为输入生成梅尔频谱,并通过WaveNet声码器输出波形。 优缺点: 优点:Transformer结构的语音模型能够加快训练速度,解决了Tacotron2中存在的训练速度低下和难以建立长依赖性模型的问题,Transformer基于对语义和关系的理解,也使声音合成的效果更自然。 缺点:存在推理较慢和自回归误差累积带来的模型偏差的问题。
● 国内外代表模型:
Tacotron2
实现原理: Tacotron2是在对WaveNet和Tacotron结合的基础上,由声谱预测网络和声码器构成的端到端语音合成模型。其中,序列到序列的预测网络将文本特征提取输入模型,将预测值叠加到梅尔频谱上,声码器根据预测的序列生成时域波形。 优缺点: 优点:通过对注意力机制的改进优化了梯度消失问题,语音生成的音质较好,并且对输入的文本数据具有较好的鲁棒性。 缺点:使用RNN结构的自回归模型的合成速度慢,对复杂单词的发音困难,生成的语音缺乏感情色彩,并且对于大数据集的训练时间和成本较高,模型缺乏可控性。
● 主流模型:
定制化需求挑战
3
多模态融合挑战
2
1
数据缺口挑战
个性化语音合成、专业交互能力、定制语音工程化能力
感知、认知、合成技术融合应用产品可控性和泛化能力
低资源语音合成训练、文本增强、构建合成数据、用户数据合规沉淀
语音转换 风格迁移应用: 影视、动漫、游戏等领域:不同角色声音的设置 涉及个人隐私安全的场景:对声音进行隐私处理 合成数据应用:构成合成数据,增加训练数据规模
语音增强、语音修复 对语音信号进行降噪、滤波、增益等处理 应用场景:电话录音、视频会议、公共环境中的语音交互服务,提高语音识别能力和生成质量 历史音频资料应用:历史音频资料的修复、古代语言发音的推测合成 历史研究价值:对历史研究具有重要的应用价值
音乐生成 可以根据提示的音频片段或文本描述生成语义、风格一致的连贯音乐。 音乐和影视领域:歌曲编曲、音乐风格精修、背景音乐和环境音生成等工作。
语音交互 人机对话场景应用:广泛应用在各类人机对话 企业服务、金融等行业:智能客服机器人与客户进行语音问答,节约人工成本 家电、汽车等行业:智能家居、智能车载场景,语音助手完成用户指令 新闻传媒等行业:国际会议、展览等活动中的同声传译工作
语音合成 泛娱乐领域应用:新闻播报、有声阅读等长声音制作场景交通与工业制造应用:语音导航、交通指挥 工业自动化控制 跨语言合成应用:语音翻译、语言学习 医学领域应用:人工喉等医疗可穿戴设备
语音识别 将输入的音频进行特征提取转换为对应的文本或命令,实现对人声口述或各类音频内容的文字转换 C端场景应用:智能手机的语音输入法、口述笔记 行业应用场景:档案检索、电子病历录入、影视字幕制作
音频 生成
● 语音速度、节奏、韵律的控制 ● 不同语言背景的文本、语音理解能力 ● 情感音素特征把握
控制 能力
语音 质量
● 高准确性 ● 抗干扰能力
生成 速度
● 个人用户:生成速度能否实时响应需求 ● 企业用户:生成速度对业务流程的影响
● 当前主流音频合成方法 ● 降低语言学知识的训练难度 ● 声音自然,趋近真人发声效果
● 所需原始声音数据规模小且流畅度好 ● 杂音多 ● 语音机械感较重
● 基于真人录制音质较好 ● 依赖语音库数据量 ● 字词衔接过渡较为生硬
端到端合成阶段
参数合成阶段
拼接合成阶段
生成旋律、音乐
根据视觉内容 (图像或视频) 进行语音描述
Text-to-Speech 根据文本合成语音
3
监管合规隐私保护 版权保护AI治理
2
产品化能力 prompt理解 微调工具运用
数据能力 数据资产闭环经营
1
图像超分辨率 医学病例和解剖结构创建 天文观测、卫星遥感鞅缤吨测
图像修复 数字化历史文献修复、 图像修补老照片、老电影修复
图像生成、图像风格转换 艺术作品创作、图像编辑、图像艺术性增强动漫人物、游戏场景制作海报、产品LOGO和包装设计
图像分类、图像分割 目标识别、图像检索工业设计 医学影像标注、解剖病理结构变化分析
3
4
2
1
图像可控性 图像细节控制 后续调整
图像多样性 细节表现力和风格表达 多张或不同风格图像的语义一致性
图像稳定性 对扭曲、失真、异常描述数据 的抗干扰能力
图像质量 画质、细节信息的丰富程度 图像的真实程度
简介
基于潜在扩散模型框架,能够降低算力要求和部署门槛专门用于文生 图任务,目前已成为多数图像生成模型的基础框架
基于CLIP和扩散模型框架的文生图模型,生成图像能够保持较好的语义一致性
基于扩散模型框架的多模态生成模型,提出混合专家模型,自动选择最优生成网络
基于扩散模型精调后的图像生成模型,部署在Discord,擅长艺术风格的图像表达
是否开源
GitHub开源
未开源
未开源
未开源
机构
StabilityAl
OpenAl
百度
Midjourney
模型
Stable Diffusion
DALL-E2
Midjourney V5
文心 ERNIE-VILG2.0
● 国内外代表模型:
CLIP:Contrastive Language-image Pre-training
实现原理: 基于对比学习的文本-图像跨模态预训练模型,其训练原理是通过编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从而能够根据给定的文本生成符合描述的图像。 优缺点: 优点:无需事先标注数据、在零样本图像文本分类任务中表现出色、对文本描述和图像风格的把握更加准确、在不改变准确性的同时对图像的非必要细节进行变化、生成图像的多样性方面表现更佳。 缺点:对于复杂和抽象场景的表现存在局限性、训练效果依赖大规模的文本-图像对数据集、对训练资源的消耗比较大。
实现原理: 通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像。扩散模型通过系统地扰动数据中的分布,再恢复数据分布,使整个过程呈现一种逐步优化的性质,确保了模型的稳定性和可控度。 优缺点: 优点:更加准确还原真实数据,对图像细节的保持能力更强,图像的写实性更好。特别是在图像补全修复、分子图生成等应用上都能取得很好的效果。 缺点:计算步骤的繁杂、采样速度较慢、对数据类型的泛化能力较弱。
扩散模型 Diffusion Model
● 主流模型:
扩散模型生成阶段
● 当前主流图像生成模型 ● 扩散过程显著提升稳定性、准确性和 多样性 结合CLIP可应用于跨模态图像生成任务 ● 显著提升生成图像的速度和质量。
自回归生成阶段
● 基于Transformer结构的自注意力机制提升稳定性和合理性 ● 推理速度和训练成本问题使应用受限
● 上一代图像生成模型 ● 通过对抗训练提升生成能力和鉴别能力 ● 稳定性较差、缺乏多样性、模式崩溃
GAN生成阶段
真彩图像生成
RGB图
用RGB三原色的组合表示每个像素的颜色值并直接存放在图像矩阵中
分子图等色彩构成比较简单的图像生成
由存放图像的二维矩阵和颜色索引矩阵MAP构成
索引图
图像生成
Image-to-Image 根据现有的图片生成新图像
Image Composition 图像合成
Text-to-Image 根据文本描述生成符合语义的图像
AIGC - 音频生成
AIGC - 视频生成
AIGC - 图像生成
定义
定义
定义
音频生成是指根据所输入的数据合成对应的声音波形的过程,主要包括根据文本合成语音(Text-to-Speech),进行不同语言之间的语音转换,根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。
视频生成是指通过对人工智能的训练,使其能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。
图像生成是指运用人工智能技术,根据给定的数据进行单模态或跨模态生成图像的过程。根据任务目标和输入模态的不同,图像生成主要包括图像合成(Image Composition),根据现有的图片生成新图像(Image-to-Image),以及根据文本描述生成符合语义的图像(Text-to-Image)等。
音频生成的主要类型和应用领域
视频生成的主要类型和应用领域
图像构成的主要类型和应用领域
典型应用
性质
数据类型
性质
数据类型
图像类型
性质
典型应用
信息播报、人机交互服务
提取文字信息特征并合成语音信息
文字信息
将多段视频进行剪辑、合成和编辑,生成新的视频,包括视频属性编辑、片段剪辑、视频部分编辑等
剪辑生成
二值图
图像的二维矩阵仅由0 (黑色) 和1 (白色) 构成,可视同灰度图的二值化
文字提取、图像特征提取
语音编辑、语音翻译、音乐制作
根据给定的语音片段进行编辑,或将一种语言转换为另-种语言的语音信息
音频信息
在现有视频上添加多种效果,如滤镜、光影、烟火等,提升视频创意和艺术效果
特效生成
灰度图
二维矩阵元素取值范围通常在0 (纯黑色)到255 (纯白色),中间数字代表黑到白之间的过渡色
医学图像、遥感图像生成
医疗可穿戴设备
对喉部、面部等肌肉运动情况进行感知并合成语音
肌肉震动
内容生成
根据给定的文本、图像等信息生成相应的视频内容
对图像、视频等视觉内容进行识别和理解,并生成与口型对应的语音信息
数字人
视觉内容
图像构成的技术发展关键阶段
音频生成的技术发展关键阶段
视频生成的技术发展关键阶段
主流模型实现原理及优缺点
图像生成商业化落地挑战
影响模型应用能力的关键因素
图像生成典型产业应用场景
音频生成主流应用
模型
简介
所属机构
是否开源
Tacotron2
首先提出端到端语音合成模型,作为多个语音系统解决方案的基础架构
已在GitHub开源
自动语音识别模型,通过大规模和多样化数据集提升语音识别能力,并支持语音转录、语音翻译等
已在GitHub开源
OpenAl
Whisper
全卷积序列到序列语音合成模型,通过扩展语音合成模型训练数据集,能够提升多人语音合成效果
未开源
百度
DeepVoice3
工业级中文语音预训练模型,支持多模态语音识别、情感识别、声纹识别等任务
未开源
科大讯飞
SMART-TTS
影响模型应用能力的关键因素
影响模型应用能力的关键因素
音频生成商业化落地挑战
音频生成典型产业应用场景
视频生成典型产业应用场景
视频生成商业化落地挑战
芯片设计
食品与农业
能源
材料科学
个人护理
人工智能技术发展速度快,新技术可能取代现有技术,因此影响现有技术商业化价值
技术发展竞争
● 药物研发需要严格审批 ● 集成电路设计版权问题 ● 分子发现模型可用于开发违禁药品与危险品
法律 与安全
开发与 验证成本
药物设计
适用性
生成质量
关键 因素
分子发现和集成电路设计模型需要适用于特定的设计目的。 集成电路设计模型同样需要结合产业的设计目的对模型进行重新训练、修改架构、手动调参、规划发现原则等以适用于产业要求。
对于分子发现和集成电路设计模型来说,生成质量是决定其应用能力的核心因素。
布线
工作类型
工作目标
代表模型
基础算法与模型
DREAMPlace
神经网络参数优化
机器学习布局优化
图神经网络
PL-GNN
图神经网络
强化学习
全连接卷积网络
卷积神经网络
卷积神经网络
多层感知机
... ...
卷积神经网络
变分自编码器
蒙特卡洛树搜索
RL for CF2
DeepPlace
人工智能布局决策
CNN for RDP3
FCN for RDP4
考虑布线的布局决策
ML for RDPE
DLRoute
人工智能布线优化
... ...
DeepPR
VAE for CR6
MCTS for CR5
人工智能布线决策
布局
完成布局与布线设计
布线布局
分子发现和电路设计应用场景
组合优化方法
深度生成方法
马尔科夫链蒙特卡洛
MIMOSA
二维
MARS
二维
ConfGF
三维
扩散模型
三维
EVFN
一维
ORGAN
二维
一维
二维
三维
三维
MoIDQNMOIDON
强化学习
GB-GA
STONED
遗传算法
BOKEI
BOA
贝叶斯优化
Defactor
一维
生成对抗网络
二维
ORGAN
GraphNVP
二维
标准化流
二维
MoFlow
SG-VAE
一维
变分自编码器
二维
CGVAE
SF-RNN
一维
二维
MolecularRNN
自回归模型
生成表示
代表模型
所用算法与模型
生成方法
原理
工作类型
给定一组集成电路的部件,其中包括标准单元、宏模块与逻辑门等,与这些部件的宽度、高度等特性信息, 也需要给出这些部件的引脚位置与部件间的连接关系信息,基于以上信息分配部件物理位置,使部件间互不重叠。
布局
布线
完成布局后,部件的引脚位置已经已经确定,且部件间的连接关系也已经确定,在布局时预留的布线区内, 根据部件间的连接关系以及如布线总长度最小、部件间的时序关系等要求,在不违反布线规则的前提下设计部件间的连接电路
通常是具备事实性、功能性或娱乐性的书面性文本内容
三维表示法
AIGC - 分子发现与电路设计
定义
分子发现与电路设计是指利用机器学习、深度神经网络等技术学习分子与集成电路的结构、规则与性质,并生成具有相似结构、符合特定规则并具有目标性质的分子与集成电路。
分子发现与电路设计主要类型和应用领域
表达方式
原理
一维表示法
将分子表达为字符串,以字符表达分子具有的原子与结构
二维表示法
将分子表达为图数据,其中原子与键分别表示为图数据的点与边
分子发现主流模型
电路设计主流模型
影响模型应用能力的关键因素
分子发现和电路设计商业化风险
● 开发需付出大量数据与人才成本 ● 验证过程需要面对大量不确定性且周期长
03 技术与应用替代风险
02 信息安全风险
01 错误信息 有害信息
电商行业
新闻与媒体
教育行业
● 生成商品描述 ● 分析商品评价 ● 生成商品推荐 ● 生成分析报告
● 生成新闻报道 ● 进行内容创作 ● 生成主持口播 ● 生成广告文案
● 生成教学计划 ● 生成教学方案 ● 辅助批改作业 ● 提供学习辅导
产品研发
● 辅助开发IT产品 ● 生成测试案例 ● 生成产品说明书 ● 生成操作步骤
客服行业
● 生成解决方案 ● 智能客服方案 ● 理解客户意图 ● 大客专属客服
市场营销
● 生成报价单 ● 生成销售方案 ● 分析市场数据 ● 分析销售数据
医疗行业
● 协助医生撰写医疗方案 ● 协助医生撰写医疗病历 ● 帮助病患匹配医疗资源 ● 为病患提供诊疗指引
● 分析大量财务报告 ● 生成关键信息摘要 ● 提供投资策略建议 ● 生成数据分析报告
金融行业
定制化能力与创新能力
满足客户差异化需求 以创新应对市场变化
产品运营与客户支持
增加用户黏性,提升迁移成本 实现用户转化与留存
营销能力
有效摊薄成本 保证盈利空间
扩展模型知识域 发现应用痛点与应用需求
生成质量
通义千问
文心一言
商量
阿里云
百度智能云
商汤
中国
中国
中国
对标ChatGPT的中文通用语言生成应用,接入百度搜索引擎、百度文库、小度智能助手等应用,与多家企业和机构达成合作,探索语言生成应用场景
是
否
否
对标ChatGPT的中文通用语言生成应用,支持企业定制化模型
对标ChatGPT的中文通用语言生成应用,且将推出医疗场景与编程场景的垂类语言生成应用
Claude
对标ChatGPT的通用语言生成应用,优化生成语言协助性与安全性,并提供企业级语言生成安全应用服务
Anthropic
海外
是
公开上线
是
是
所属市场
海外
海外
所属机构
OpenAl
2022年-至今:应用加速期 ● 生成语言质是与人类水平看齐 ● 产业界公司积极探索语言生成在各行业各领域的应用场景与应用方式
Ⅵ
Ⅴ
F
E
Ⅳ
2020年-2021年:应用探索期 ● 语言生成能力满足应用基础要求 ● 产业界公司初步探索低模式化语言生成任务的应用场景
2018年-2019年:模型探素期 ● 语言生成模型范式明确 ● 奠定低模式化的语言生成应用的技术基础
D
Ⅲ
C
Ⅱ
B
Ⅰ
2017年:技术发展期 ● 提出Transformer架构,英定技术基础 ● 仍仅能完成高度模式化的语言生成任务
2017年前 ● 语言生成能力较弱 ● 应用仅能完成高度模式化的语言生成任务
高速发展期
市场启动期
探索期
A
语言生成主流应用
简介
应用名称
标杆性通用语言生成应用,在文本生成、文本总结、文本修改、自然语言交互、代码生成等多项语言生成任务中获得最优成绩,与许多头部企业和机构合作探索语言生成应用场景
ChatGPT
对标ChatGPT的通用语言生成应用,接入Google搜索引擎以优化搜索体验,接入Google办公产品生态内
BARD
提供交互
生成内容
通常是具备事实性、功能性或娱乐性的书面性文本内容
博客文章、新闻、邮件、小说、代码
生成固定格式的合同等
可以辅助文学内容的创作,对各类内容进行摘要与总结。
AIGC - 语言生成
定义
语言生成是指神经网络学习的语义概率模型可以根据任务要求生成语言,生成的语言包括自然语言、编程语言与逻辑语言等。
语言生成的主要类型和应用领域
数据类型
性质
典型应用
通用语言生成
具备大量通用领域知识,可以根据要求完成不同类型的语言生成任务
体素栅格、点云与网格
垂类语言生成
除具备一定通用领域知识外还具备专业领域知识,通常应用模式设计也更加符合专业领域应用中的各项要求
金融业财务报告撰写与分析等
语言生成的技术发展关键阶段
语言生成应用商业化关键能力
语言生成典型产业应用场景
语言生成商业化风险
由于语义的基础性,各类应用均可从语义层面进行解耦与解构,因此许多语言生成应用可能会因技术的进步与应用的设计迭代等难以保持其商业上的竞争优势,被快速取代或替代。
在使用语言生成应用的过程中,由于许多产品与服务基于公有云服务,或需要将信息上传至供应商服务器,因此可能出现信息泄露的风险。
生成错误信息与有害信息可能会对品牌声誉与产品形象产生巨大影响,因此成为语言生成应用商业化的巨大风险。
技术革新挑战
场景应用落地挑战
版权挑战
目前许多人工智能三维生成的有机会商业化的应用场景,如电影制作、产品概念设计、游戏三维资产制作等,在实际应用中用户接受的仍旧是二维图像。此类应用场景目前仍然应用三维生成的原因是需要保证画面内容在不同视角下的统一性,因此目前三维生成在这些场景下仍然具有其独特的应用价值。
目前许多人工智能三维生成应用仍然需要大量的文本数据与二维图像数据作为训练模型的基础。如果这些数据来源于版权受保护的资产,那么使用这些数据进行商业化行为就容易涉及版权问题。
03
02
01
三维生成的应用场景可以大致分为面向专业人士的场景与面向普通消费者的场景。面向专业人士的场景需要人工智能三维生成的能力满足工业产线级的应用要求,如高质量的生成、高度的可控性。而面向普通消费者的应用场景对人工智能三维生成的生成质量与可控性要求相对较低,但面向普通消费者的应用却普遍对生成效率有着较高的要求。
三维生成商业化落地挑战
虚拟现实
教育培训
使用三维生成技术创建逼真的虚拟世界和角色,提高虚拟现实的真实感和沉浸感。
教师和学生使用三维生成技术更好地理解和学习复杂的科学和技术知识,提高教学效果和学习效率。
电影和动画制作
艺术设计
使用三维生成技术创建逼真的三维场景和角色,并实现复杂的视觉效果,提高电影和动画的质量和观赏性。
使用三维生成技术创建数字艺术品、数字雕塑和其他创意作品,提高创作的效率和表现力。
建筑设计
医疗保健
使用三维生成技术更快速地创建建筑模型和可视化效果图,提高设计的效率和准确性。
使用三维生成技术创建逼真的人体器官模型和医疗设备,用于医疗教育、手术模拟和疾病诊断等领域。
工业制造
使用三维生成技术更快速地创建零部件和模具,提高生产的效率和准确性,降低制造成本。
使用三维生成技术快速地创建逼真的三维场景和虚拟角色,提高游戏的真实感和沉浸感。
游戏开发
三维生成典型产业应用场景
可控性
加强指令理解能力 建模工作与渲染工作分离,且需采用网格表达
生成效率
计算量大,生成速度慢 训练生成对硬件要求高
模型精细度、准确性 渲染分辨率、准确性 材质表达准确性
生成质量
影响模型应用能力的关键因素
Magic3D模型
实现原理: 首先用与DreamFusion相似的扩散模型生成低分辨率、简单渲染的哈希网格三维模型,之后再采用与传统计算机图形学相似的方法对三维模型进行更高质量的渲染。 优缺点: 优点:Magic3D模型生成的三维模型分辨率更高,且渲染效果更好,生成效率也有了显著的提升。 缺点:Magic3D模型计算资源需求高、模型训练时间长、生成结果受文本描述影响大和对特定领域知识依赖性强。
DreamFusion模型
实现原理: 主要基于深度学习中的扩散模型(Diffusion Model)技术,并结合了神经辐射场(Neural Radiance Fields,NeRF)和文本-图像扩散模型的概念。 优缺点: 优点:能够从文本描述中生成高质量、逼真的3D模型,且支持多角度生成和优化,提高了3D场景的连贯性和真实感。 缺点:对硬件资源有较高依赖,且模型的泛化能力尚待提高。
CLIP-NeRF模型
实现原理: 将CLIP(Contrastive Language–Image Pre-training)模型引入NeRF(Neural Radiance Fields)的编辑中,实现文本或图像引导的NeRF修改。 优缺点: 优点:CLIP-NeRF模型更加注重以自然语言或二维示意图对生成的三维模型与三维渲染效果进行调整。 缺点:生成效果与商业化价值方面,CLIP-NeRF模型与Dream Field模型存在同样的问题。
实现原理: 利用CLIP从文本到二维图像的生成能力,结合NeRF从二维图像学习三维结构与纹理渲染的能力,实现从自然语言到三维的生成。 优缺点: 优点:Dream Fields模型证明了CLIP模型可以与NeRF模型结合应用,并突破了以往三维生成模型在想象力方面的限制。 缺点:Dream Fields模型生成的三维内容的结构仍然较为简单、三维渲染效果较差不能生成大规模的三维场景。此外,Dream Fields模型的生成效率很低,与传统三维生成工作的衔接性也较差,因此并不具备商业化价值。
Dream Fields模型
● 主流模型:
主流模型实现原理及优缺点
二维升维应用探索期 2022-至今
● 二维生成迅速发展 ● 二维升维路线明确 ● GAN仍有应用
二维升维技术发展期 2020-2022
● 提出神经辐射场 ● 升维研究加速 ● GAN成为三维主流
二维升维萌芽期 2018-2020
● 提出神经场三维表达 ● 升维研究发展缓慢 ● 原生三维研究较多
三维生成的技术发展关键阶段
典型应用
体素栅格、点云与网格
三维场景重建与渲染
性质
以直观的形式表达三维物体的形状、结构和位置等信息
以神经网络参数表达的三维场景,即神经场
隐性表达数据
显性表达数据
数据类型
三维生成的主要类型和应用领域
三维生成(人工智能)是指利用深度神经网络学习并生成物体或场景的三维模型,并在三维模型的基础上将色彩与光影赋予物体或场景使生成结果更加逼真。在应用中,生成物体或场景的三维模型称为三维建模,生成三维模型的色彩与光影称为三维渲染。
定义
AIGC - 三维生成