导图社区 AI和深度学习知识图谱
这是一篇关于AI和深度学习知识图谱的思维导图,主要内容包括:深度学习(机器学习的进阶分支),机器学习(AI核心算法分支),AI核心基础。
编辑于2025-09-12 08:53:17AI和深度学习知识图谱
- AI核心基础
- 定义与定位
- 本质:模拟/延伸/扩展人类智能的理论、方法、技术及应用系统
- 学科属性:综合性科学,归属于计算机学科,跨计算机科学、数学、统计学、哲学、心理学
- 智能的三大维度
- 认知能力:理解、学习、推理、记忆、逻辑分析
- 适应能力:动态问题解决、环境变化应对、异常情况处理
- 自主能力:独立任务执行、自主决策、目标规划
- 三大核心要素
- 算力:硬件支撑(GPU/ASIC-TPU/NPU/FPGA、服务器集群、量子计算雏形)
- 算法:核心逻辑(机器学习、深度学习、强化学习、迁移学习等)
- 数据:原料基础(结构化-表格/数据库;非结构化-文本/图像/音频/视频;数据全流程-采集→清洗→标注→标准化→存储→脱敏)
- 主要学派
- 传统三大流派
- 符号主义:基于逻辑规则与知识表示(如专家系统、知识图谱)
- 联结主义:模拟神经网络结构(如深度学习、人工神经网络)
- 行为主义:通过试错与环境交互学习(如强化学习、机器人控制)
- 其他重要学派
- 进化学派:模拟生物进化(遗传算法、进化策略)
- 贝叶斯学派:基于概率推理(贝叶斯网络、概率模型)
- 类推学派:通过相似性推理(案例推理、近邻算法)
- 智能水平分类
- 弱人工智能(Weak AI):专精单一任务(如语音识别、图像分类、推荐系统)
- 强人工智能(Strong AI):具备通用智能,等效人类认知(理论阶段)
- 超人工智能(Super AI):全面超越人类智能(理论阶段)
- 发展阶段
- 萌芽期(1940s-1956):图灵测试提出、智能理论奠基
- 诞生期(1956):达特茅斯会议,正式定名“人工智能”
- 第一次浪潮(1956-1973):早期符号主义主导,逻辑推理系统发展
- 第二次浪潮(1980-1990):专家系统普及,符号主义鼎盛与衰落
- 第三次浪潮(1994-至今):机器学习崛起,深度学习爆发,大模型时代
- 机器学习(AI核心算法分支)
- 定义与定位
- 本质:让机器从数据中自动学习规律,实现“数据→模型→预测/决策”的过程
- 与AI关系:AI的核心实现路径,深度学习的基础
- 核心学习范式(按数据标注状态)
- 监督学习(Supervised Learning)
- 核心特点:训练数据含“输入-输出”标签对,目标学习映射关系
- 典型任务
- 分类(Classification):输出离散类别(二分类-垃圾邮件识别;多分类-图像识别(猫/狗/车);多标签分类-文本情感+主题标注)
- 回归(Regression):输出连续数值(房价预测、股票走势预测、温度预估)
- 代表算法
- 传统算法:逻辑回归(LR)、支持向量机(SVM)、决策树(DT)、随机森林(RF)、梯度提升树(GBDT/XGBoost/LightGBM)
- 应用场景:信用评分、医疗诊断(疾病分类)、商品推荐(用户偏好预测)
- 无监督学习(Unsupervised Learning)
- 核心特点:训练数据无标签,目标挖掘数据内在结构/规律
- 典型任务
- 聚类(Clustering):按相似度分组(K-Means、DBSCAN、层次聚类)
- 降维(Dimensionality Reduction):减少特征维度,保留关键信息(PCA、t-SNE、UMAP)
- 异常检测(Anomaly Detection):识别偏离正常模式的数据(孤立森林、自编码器)
- 关联规则挖掘(Association Rule Mining):发现数据间关联(Apriori、FP-Growth,如“啤酒与尿布”案例)
- 应用场景:用户分群、异常交易检测、图像特征压缩、商品关联推荐
- 半监督学习(Semi-supervised Learning)
- 核心特点:结合少量带标签数据+大量无标签数据,降低标注成本
- 典型方法:标签传播(Label Propagation)、标签松弛(Label Spreading)、半监督SVM
- 应用场景:医疗影像(少量标注病例+大量未标注数据)、低资源语言处理
- 强化学习(Reinforcement Learning, RL)
- 核心逻辑:智能体(Agent)通过与环境(Environment)交互,以“试错”方式学习:通过奖励(Reward)/惩罚信号优化行为策略(Policy),最大化累积奖励
- 核心要素:Agent(智能体)、Environment(环境)、State(状态)、Action(动作)、Reward(奖励)、Policy(策略)、Value Function(价值函数)
- 关键算法
- 基于价值:Q-Learning、SARSA
- 基于策略:Policy Gradient(PG)、Actor-Critic(AC)、Proximal Policy Optimization(PPO,主流算法)
- 深度强化学习(DRL):DQN(深度Q网络)、DDPG、TD3、SAC
- 应用场景:机器人控制、游戏AI(AlphaGo)、自动驾驶(路径规划)、资源调度
- 其他学习范式
- 迁移学习(Transfer Learning):将从“源任务”学到的知识迁移到“目标任务”,解决目标任务数据不足问题(如预训练模型微调)
- 联邦学习(Federated Learning):多设备/机构在不共享原始数据的情况下联合训练模型,保护数据隐私(如手机端输入法个性化训练)
- 自监督学习(Self-supervised Learning):通过数据自身结构生成伪标签(如BERT的掩码语言模型、图像的对比学习)
- 传统机器学习模型(非深度模型)
- 线性模型:线性回归、逻辑回归(适用于数据线性可分场景,可解释性强)
- 树模型:决策树(可解释性强,易过拟合)、随机森林(集成多个决策树,降低过拟合)、梯度提升树(迭代优化,精度高)
- 核方法:支持向量机(通过核函数处理非线性问题,小样本场景表现优)
- 概率模型:贝叶斯网络(概率推理,适用于不确定性场景)、隐马尔可夫模型(HMM,适用于序列数据如语音识别)
- 机器学习流程
- 数据准备:数据采集→数据清洗(处理缺失值、异常值、重复值)→特征工程(特征提取、特征选择、特征转换)
- 模型训练:选择算法→划分训练集/验证集/测试集→模型拟合→超参数调优(网格搜索、随机搜索、贝叶斯优化)
- 模型评估:分类任务(准确率、精确率、召回率、F1分数、ROC-AUC);回归任务(MAE、MSE、RMSE、R²);聚类任务(轮廓系数、CH指数)
- 模型部署:模型序列化(如Pickle、ONNX)→部署到生产环境(云服务、边缘设备)→模型监控与迭代
- 深度学习(机器学习的进阶分支)
- 定义与核心特征
- 本质:“深度神经网络学习”,机器学习的子集,通过堆叠多层神经网络(隐藏层),实现对复杂非线性关系的建模
- 核心优势:自动特征提取(无需人工设计特征)、处理高维数据(图像/音频)能力强、大规模数据下精度高
- 与传统机器学习区别:传统机器学习依赖人工特征工程,深度学习自动学习特征;传统模型层数少(1-2层),深度学习隐藏层可达数十至数千层
- 基础组件
- 神经元(Neuron):深度学习的基本单元,模拟生物神经元:输入(特征)→加权求和→激活函数→输出
- 激活函数(Activation Function):引入非线性,让模型拟合复杂关系
- 常用函数:Sigmoid(输出0-1,易梯度消失)、Tanh(输出-1-1)、ReLU(修正线性单元,缓解梯度消失,主流)、Leaky ReLU、ELU、Softmax(多分类输出概率)
- 损失函数(Loss Function):衡量模型预测值与真实值的差距,指导模型优化
- 分类任务:交叉熵损失(Cross-Entropy Loss)、Focal Loss(解决类别不平衡)
- 回归任务:均方误差(MSE)、平均绝对误差(MAE)
- 生成任务:对抗损失(GAN)、重构损失(自编码器)
- 优化器(Optimizer):通过梯度下降(Gradient Descent)最小化损失函数,更新模型参数
- 基础:随机梯度下降(SGD)
- 改进:动量(Momentum)、自适应学习率(Adam、RMSprop、Adagrad,Adam为主流)
- 正则化(Regularization):防止模型过拟合(在训练集表现好,测试集表现差)
- 方法:L1正则化(Lasso,特征选择)、L2正则化(Ridge,权重衰减)、Dropout(训练时随机“关闭”部分神经元)、Batch Normalization(批量归一化,加速训练,缓解过拟合)、数据增强(Data Augmentation,如图像翻转/裁剪)
- 经典神经网络结构
- 卷积神经网络(Convolutional Neural Network, CNN)
- 核心思想:模拟人类视觉系统,通过“卷积层(提取局部特征)+池化层(下采样,减少参数)+全连接层(分类/回归)”实现特征层级提取(从边缘→纹理→部件→整体)
- 关键组件:卷积核(Filter)、步长(Stride)、填充(Padding)、池化(Max Pooling/Average Pooling)
- 经典模型
- 基础模型:LeNet-5(手写数字识别)、AlexNet(ImageNet竞赛突破,深度CNN起点)
- 进阶模型:VGGNet(小卷积核+深层数)、ResNet(残差连接,解决深层网络梯度消失,可训练千层网络)、Inception(多尺度卷积核,高效提取特征)、MobileNet(深度可分离卷积,轻量化,适用于移动端)、EfficientNet(缩放深度/宽度/分辨率,高效高精度)
- 核心应用:图像分类、目标检测(YOLO、Faster R-CNN)、图像分割(U-Net、Mask R-CNN)、图像生成、人脸识别
- 循环神经网络(Recurrent Neural Network, RNN)
- 核心特点:处理序列数据(如文本、语音、时间序列),通过“循环连接”保留历史信息,即当前输出依赖于当前输入+历史状态
- 局限性:梯度消失/梯度爆炸(难以处理长序列,如超过20个时间步)
- 改进结构
- 长短期记忆网络(Long Short-Term Memory, LSTM):通过“遗忘门(Forget Gate)、输入门(Input Gate)、输出门(Output Gate)、细胞状态(Cell State)”解决长序列依赖问题,避免梯度消失
- 门控循环单元(Gated Recurrent Unit, GRU):简化LSTM结构,保留核心门控机制,计算效率更高
- 应用场景:文本生成、机器翻译(早期)、语音识别、时间序列预测(如股价、流量)
- Transformer(深度学习里程碑结构)
- 核心突破:完全基于“自注意力机制(Self-Attention)”,替代RNN的循环结构,可并行计算,处理长序列能力更强,成为NLP、CV等领域的基础架构
- 核心组件
- 自注意力机制(Self-Attention):计算序列中每个元素与其他所有元素的关联权重,捕捉全局依赖(通过Query、Key、Value计算注意力分数)
- 多头注意力(Multi-Head Attention):并行执行多个自注意力,捕捉不同维度的关联信息
- 位置编码(Positional Encoding):为序列添加位置信息(因Attention无顺序感知)
- 编码器(Encoder):多层多头注意力+前馈神经网络,负责提取输入特征(如BERT的编码器结构)
- 解码器(Decoder):多层多头注意力(含掩码注意力,防止未来信息泄露)+编码器-解码器注意力+前馈神经网络,负责生成输出序列(如GPT的解码器结构)
- 应用场景:大语言模型(LLM)、机器翻译、图像描述生成(ViT,Vision Transformer)、语音处理
- 生成模型(Generative Models)
- 核心目标:学习数据分布,生成与真实数据相似的新数据
- 典型模型
- 生成对抗网络(Generative Adversarial Network, GAN):由“生成器(Generator,生成假数据)”和“判别器(Discriminator,区分真假数据)”构成,二者对抗训练,最终生成器可生成逼真数据(如DCGAN、StyleGAN、ProGAN)
- 变分自编码器(Variational Autoencoder, VAE):基于自编码器,引入概率分布约束,生成具有多样性的数据,可用于数据降维、图像生成
- 扩散模型(Diffusion Models):通过“逐步加噪→逐步去噪”学习数据分布,生成质量高(如Stable Diffusion、DALL-E背后技术)
- 应用场景:图像生成(如AI绘画)、文本生成图像、语音合成、数据增强
- 其他重要网络结构
- 自编码器(Autoencoder, AE):无监督学习,由“编码器(压缩输入为 latent 向量)”和“解码器(从 latent 向量重构输入)”构成,用于降维、异常检测、特征提取
- 注意力机制衍生:如Transformer-XL(处理更长序列)、DeBERTa(增强语义理解)、Swin Transformer(CV领域的窗口注意力,适用于高分辨率图像)
- 深度学习框架(工具支撑)
- 主流框架
- TensorFlow(Google):生态完善,支持静态图/动态图,适用于科研与工业界,支持多平台部署
- PyTorch(Meta):动态图优先,易用性强,调试方便,科研领域主流(如大模型训练常用)
- Keras:高层API,可基于TensorFlow/PyTorch backend,简化模型搭建,适合入门
- 国内框架:PaddlePaddle飞桨(百度,本土化支持好)、MindSpore昇思(华为,支持全场景AI)
- 其他:Caffe(早期CV领域常用)、MXNet(轻量高效)
- 大模型(深度学习的规模化应用)
- 定义:参数规模庞大(通常数十亿至万亿级)、训练数据海量(TB/PB级)、基于Transformer等复杂结构,具备强泛化能力的深度学习模型,核心是“大参数+大数据+强结构”
- 核心类型
- 大语言模型(Large Language Model, LLM):处理文本数据,理解与生成自然语言(如GPT系列、BERT、LLaMA、文心一言、讯飞星火)
- 多模态大模型:融合文本、图像、音频、视频等多模态数据(如GPT-4V、Gemini、文心一格)
- 行业大模型:基于通用大模型,结合行业数据微调,适配特定行业需求(如医疗大模型、金融大模型、法律大模型)
- 核心技术流程
- 预训练(Pre-training):用海量无标注数据(如全网文本、图像)训练基础模型,学习通用知识与特征,赋予模型基础能力
- 微调(Fine-tuning)
- 全参数微调:调整模型所有参数,适配目标任务(数据充足时)
- 高效微调(Parameter-Efficient Fine-Tuning, PEFT):仅调整部分参数(如LoRA、Prefix Tuning),降低计算成本(数据有限时)
- 对齐(Alignment):通过人类反馈强化学习(RLHF),让模型输出符合人类价值观与偏好
- 关键挑战:算力消耗大(训练一次需千万至数亿元)、数据质量要求高、模型可解释性差、伦理安全问题(如偏见、虚假信息)