导图社区 DeepSeek能力图谱
这是一篇关于DeepSeek能力图谱的思维导图,主要内容包括:自然语音处理,辅助决策,知识与推理,交互能力。
编辑于2025-02-27 16:40:12AI大模型 零基础入门-商业应用实战
AI入门底层原理
AI大模型前世今生
NLP自然语言基础
深度学习与神经网络
Transformer框架
LLM大模型模型原理
多模态模型原理
NAVID-GPU与CPU
企业应用:AI大模型应用技术
AI大模型应用开发框架和工具栈
就业必备:AI大模型企业级实战
案例拆解:AI视角下业务KnowHow
中心主题
主题
主题
主题
子主题
子主题
子主题
子主题
子主题
子主题
子主题
子主题
子主题
DeepSeek 能力图谱
交互能力
对话能力
情感回应
上下文理解
多轮对话
任务执行
指令理解
任务协调
工具调用
多模态交互
语音识别
图像理解
跨模态转换
知识与推理
问答系统
知识推理
通用问答
专业领域问答
逻辑推理
逻辑分析
因果推理
数学运算
知识整合
概念关联
多元信息融合
知识图谱构建
辅助决策
数据分析
异常检测
趋势分析
数据可视化
方案规划
流程优化
任务分解
风险评估
建议生成
专业建议
决策支持
个性化推荐
自然语音处理
翻译与转换
多语言翻译
文体转换
格式转换
语言理解
关系抽取
情感分析
文本分类
实体识别
文本生成与制作
文案写作
代码注释
故事创作
诗歌创作
AI入门底层原理
AI大模型前世今生
AI演进与大模型兴起
AI定义
机器学习到深度学习
深度学习的诞生与发展
AI1.0-决策式/分析式
AI2.0-生成式
典型概念
AI
大模型
通用人工智能AGI
定义:Artificial General Intelligence,通用人工智能。AI在多个领域以人类水平处理复杂问题的能力
核心:持续学习和自我改正的能力
人工智能的通用性不仅表现在对语言的处理上,还包括像人一样基于常识和日常经验与外部客观世界互动的能力。
技术路径探索
OPenAI路径
技术思路:尽量扩大模型规模,希望先做出通用的基础模型,再“蒸馏”出各行业可使用的行业垂直模型,走的是“由通到专”的路。
潜在问题: 1.降低通用大模型的训练成本; 2.如何在保持泛化能力的同时,提高在特定领域或任务上的性能和效率
Deepseek路径
技术思路:由专到通。 1.试图在模型算法和工程优化方面进行系统级创新,为在受限资源下探索通用人工智能开辟新的道路。 2.所谓“混合专家模型”就是集小智为大智,集专智为通智。 3.“小而精”的模型将人工智能的重点发展方向从面向企业的to B引向更贴近消费者的to C,从广泛覆盖的“横向通吃”引向深入钻研的“纵向做精”,让更多的中小企业参与,可能会创造更大市场空间。
潜在问题:整合多个专用模型为通用模型也需要解决诸多技术和工程问题,如模型间的接口、数据格式的统一、训练时的负载平衡等。
机器学习
深度学习
神经网络模型
大语言模型LLM
子主题
理解AI大模型
大模型前世今生
早期大规模模型
深度神经网络
预训练语言模型
大规模视觉模型
大语言模型与AGI关系
大模型与通用人工智能
大模型定义
通用人工智能定义
大模型与通用人工智能关系
GPT模型发展历史
大模型的挑战与机遇
国产大模型发展
国产大模型现状
国内头部企业大模型分析
deepseek
低成本是技术普及的基本要求
DeepSeek不仅是技术突破者,更是规则重构者:AI不再局限于简单堆砌算力,而是进入了以追求高算效和高能效为主的新阶段。
通义千问
文心一言
豆包
混元
智普GLM
国内大模型商业化探索进程
大模型应用领域
自然语言处理
计算机视觉
语音识别
推荐系统
自动驾驶
大模型应用现状及前景分析
大模型在行业中的应用现状
大模型遇到的问题及障碍
大模型应用前景展望
NLP自然语言基础
NLP基本概念
NLP定义
NLP重要性
NLP发展历程
萌芽期:1956年以前
快速发展期:1980-1999年
突飞猛进期:2000年至今
NLP核心任务
自然语言理解:NLU/NLI
自然语言生成:NLG
NLP工作原理
文本预处理
特征提取
文本分析
模型训练
文本转换成数据
语言模型:N-Gram模型
分词:Tokenization
Word2Vec模型
打造能识别文本情感的模型
语言模型
统计语言模型
神经网络语言模型
注意力机制
NLP实际应用
机器翻译:计算机具备将一种语言翻译成另一种语言的能力
智能问答:计算机能够正确回答输入的问题
文摘生成:计算机能够准确归纳、总结并产生文本摘要
文本分类:计算机能够采集各种文章,进行主题分析、自动分类
情感分析:计算能够判断用户评论是否积极
舆论分析:计算机能够判断目前舆论的导向
知识图谱:知识点相互连接而成的语义网络
深度学习与神经网络
基本概念
传统机器学习与深度学习发展
深度学习
生物神经网络
人工神经网络
神经网络概念
神经元结构和功能
神经网络定义和分类
神经网络基本结构和组成
神经网络激活函数
深度学习与神经网络工作本质
基于生物模型到计算模型的演变
机器学习与训练
监督学习
无监督学习
训练模型总结
深度理解神经网络的组成
神经网络训练过程
深度学习与神经网络概念
损失函数评定当前模型水平
梯度下降确定模型迭代方向
一次迭代提升模型精准程度
深度学习常见模型
全连接网络
前馈神经网络
卷积神经网络CNN
残差神经网络ResNet
LSTM&Attention
深度学习常见应用
图像识别
语音识别
推荐系统
强化学习
自然语言处理
游戏智能
计算机视觉
Transformer框架
起源与发展
《Attention Is All You Need》
GPT(the Generative Pretrained Transformer)
BRTT(Bidirectional Encoder Representations from Transformers)
Transformer特征
Transformer结构
Encoder(左边):负责理解输入文本,为每个输入构造对应的语义表示(语义特征)
Decoder(右边):负责生成输出,使用Encoder输出的语义表示结合其他输入来生成目标序列。
注意力层
原始结构
Transformer家族
Encoder分支
Decoder分支
Encoder-Decoder分支
注意力机制
Tokenization:将对话内容变成Token
词元化与子词
汉字与英文单词的区别
效果演示:ChatGPT的Tokenization
Embedding:将Token变成向量
空间与向量
基数理解One-Hot编码
空间的稀疏、稠密、距离、数学逻辑关系
Word2Vec Model
OpenAI Embedding Model
OpenAI Clip:文字与图片的多模态Encoder
效果演示:OpenAI Embedding
Encoder&Decoder
Encoder理解你的指令
Decoder回答你的问题
基于循环神经网络的Encoder&;Decoder
Transformer Encoder&Decoder
带有Attention机制的Transformer Encoder
带有Attention机制的Transformer Decoder
Encoder only&Decoder only
LLM大模型模型原理
大语言模型概览
算法创新
计算能力提升
数据的可用性与规模性
软件与工具的进步
生成式模型
大语言模型
LLM发展历程
基于统计方法的N-gram语言模型
LSTM网络
Transformer模型
交叉注意力机制
自注意力机制
Transformer架构的并行优势
编码器和解码器模型
生成式预训练Transformer
GPT模型的标记和预测实现
LLM关键技术
预训练
SFT(Supervised Fine-Tunning)
RLHF(Reinforcement Learning from Human Feedback)
LLM构建过程
大规模预训练
指令微调与人类对齐
常用的预训练数据集常用微调数据集
LLM私有化部署必备知识
多模态模型原理
多模态领域的Transformer
CNN:卷积神经网络
ViTal:Vision Transformer
ViLT:Vision-and-Language Transformer
CLIP:Contrastive Language-Image Pre-taining
视觉识别原理
安防视觉识别模型原理
零件缺陷检测模型原理
医疗诊断识别模型原理
无人驾驶视觉识别模型原理
视觉识别技术与大模型关系
AI生图算法
扩散模型:Diffusion Model
DALL.E2:CLIP+Diffusion Model
通过CLIP Text Encoder将文本转换为文本特征向量
通过Prior模型将文本特征向量转换为图像特征向量
通过Diffusion Model中的Image Decoder将图像特征向量扩散成一张图片
稳定扩散模型:Stable Diffusion
巨人的肩膀:Latent Diffusion Model
通过CLIP Text Encoder将文本转化为文本特征向量
通过图像信息Creator在Latent Space中处理特征向量
通过Image Decoder将图像特征扩散成一张图
AI视频原理
DALL.3:Caption Improvement增强图片描述+CLIP score评分机制,大幅提升训练集的数据质量
利用DALL.3给Sora的全部视频数据集重新生成文本描述
ViVit:A Video VisionTransformer完成视频Patch切分
使用三维空间的VAE技术将视频压缩转换成新的潜在空间表示
DiT:Scalable Diffusion Model with Transformers生成高质量图像与视频
NaViT:Native Resolution ViT实现对输出视频分辨率和宽高比的调整
NAVID-GPU与CPU
GPU与CPU关系
GPU与CPU计算核心的区别对比
特定类型的计算适合运行到GPU
1000倍以上的速度提升带来算法设计模式的巨大变化
如何在GPU上做并行计算
启动普通CPU应用程序
将数据加载到内存
将数据从内存copy到显存
运行GPU应用程序完成大规模计算
将计算结果存储到显存
将计算结果从显存中copy到内存
英伟达整套体系强大原因
18年积淀的CUDA体系及开发者生态
TensorFlow和PyTorch等人工智能框架的深度集成
试错成本过高带来的迁移困难