导图社区 以ChatGPT说AI-2025版
这是一篇关于以ChatGPT说AI-2025版的思维导图,主要内容包括:OpenAI/ChatGPT,苹果系,HuggingFace,Stable-Diffusion,Midjourney,主流大模型的技术架构,Meta/Facebook系,Google系,人工智能的巨大优势,AI的基础发展,以及最近非常火爆的DeepSeek。更新了MCP相关内容,优化展示效果,增加注释等知识库内容。
编辑于2025-02-03 11:09:55这是一篇关于以ChatGPT说AI-2025版的思维导图,主要内容包括:OpenAI/ChatGPT,苹果系,HuggingFace,Stable-Diffusion,Midjourney,主流大模型的技术架构,Meta/Facebook系,Google系,人工智能的巨大优势,AI的基础发展,以及最近非常火爆的DeepSeek。更新了MCP相关内容,优化展示效果,增加注释等知识库内容。
在日常工作如果涉及到各种坐标系,我们只需要看这张思维导图,就会一目了然了。各种常见的坐标和相关应用信息都有。
在进行系统设计时不知道怎么搞?解决具体问题时不知道用哪个设计模式?现在有这份设计模式实战攻略的思维导图,让我们从问题的角度去研究具体做法,得到启发,保证让你以后再解决问题时得心应手!这是最新的2023版,补充完善了内容,修正了之前版本中的若干错误。保证让你感受到物超所值。
社区模板帮助中心,点此进入>>
这是一篇关于以ChatGPT说AI-2025版的思维导图,主要内容包括:OpenAI/ChatGPT,苹果系,HuggingFace,Stable-Diffusion,Midjourney,主流大模型的技术架构,Meta/Facebook系,Google系,人工智能的巨大优势,AI的基础发展,以及最近非常火爆的DeepSeek。更新了MCP相关内容,优化展示效果,增加注释等知识库内容。
在日常工作如果涉及到各种坐标系,我们只需要看这张思维导图,就会一目了然了。各种常见的坐标和相关应用信息都有。
在进行系统设计时不知道怎么搞?解决具体问题时不知道用哪个设计模式?现在有这份设计模式实战攻略的思维导图,让我们从问题的角度去研究具体做法,得到启发,保证让你以后再解决问题时得心应手!这是最新的2023版,补充完善了内容,修正了之前版本中的若干错误。保证让你感受到物超所值。
以ChatGPT说AI-2025版
AI起源
上世纪50年代就有美国科学家尝试做一些看上去比较AI的事情,还写了论文
上世纪50年代,艾伦·图灵,发明的模仿游戏,就有AI的思想。并且有论文提到,真正的AI人工智能,是要能够通过图灵测试的。
上世纪七八十年代开始,已经有这方面的实际应用领域的尝试
上世纪九十开始,已经有能应付日常一般对话的人工智能机器人了
AI的基础是数学
AI的基础发展
Pattern Matching
语义:模型匹配
简单的语言对应
以关键信息匹配一个固定的处理模式
已经在一定程度上取代了纯人力的、机械性的重复问答
不能穷举所有的答案和场景,所以只能覆盖有限简单业务
Machine Leaning
语义:机器学习
通过大量的机器的数据分析和知识累积,形成了自己的知识库
可以随时聊上几句
局限性是给人的感觉回答非常的机械,仍有很大的不足
Artificial Neural Network
语义:人工神经网络
Bert和GPT中的T,指的就是Transformer,注意力。 
需要大量的数据和强大的算力
卷积神经网络CNN
这是用来处理图像的
图像数据量太大,先进行降维,再进行处理
循环神经网络RNN
串行识别,逐字逐词处理
还有改良版的LSTM和GRU。
效率低
长语句的处理存在偏差甚至错误和遗忘前文问题
一个典型的续写案例: 句1:张老师的课讲的很好,大家都给他点赞。 句2:刘先生说话非常风趣,大家都给他点赞。 对于这样的续写,如果只看最后一句,那很有可能续写出来的东西根本不是整句想要表达的意思,这就是处理偏差和遗忘前文问题。RNN很有可能对句1就续写成了:于是大家都很喜欢他说话。这意思就表达的不对了。
注意力神经网络Transformer
Google于2017年提出,目前许多主流大模型都采用的这一套架构,注意到这一点很重要。
Google提出的是一个N进N出的模式
可以同时处理语句中的字词,能处理长序列数据
可以并行化计算
输入部分又叫编码器,Encoder
可独立使用
也可与解码器一起使用
输出部分又叫解码器,Decoder
可独立使用
也可与编码器一起使用
最重要的是Self-Attention和Feed Forward
Self-Attention就是注意力集中的一种机制,通俗地讲,就是对一段话,找出它的重点,同时具备人类的多头思维能力。例如“我喜欢踢足球,更喜欢打篮球”,我们如果只关注最后一句,是没办法知道说话的人是否喜欢足球的,阅读整句,才能弄清楚说话的人很喜欢篮球,但是足球也是喜欢的,只是没有像篮球那么喜欢而已。 Feed Forward,用于对Self-Attention的输出内容进行进一步的处理。可以这样理解,Self-Attention理解了语句中的各个词的含义,而Feed Forward才能够进一步理解这些词句之间的关系。
一个十分重要的概念
token
在大模型中它有独特的概念和定义
token是大模型语言中,处理文本的最小单位
它可以是一个单词
也可以是一个标点符号
还可以是一个数字
也可以是一个特殊符号(如表情符号)
tokenization
字面意义是token化,是将一个句子处理成多个token(也就是tokens)的过程
前景展望
软硬一体
降成本,需要完成“旧时王谢堂前燕,飞入寻常百姓家”这个过程
改善人类的劳动力
简单的工作机器做、容易的工作自动做,复杂的工作帮我做
自主创造
简单的创造性的工作是可以的,发明研究型的创造还有待观察
AIGC
大幅降低软件开发门槛
软件是人类控制机器的手段和工具,现阶段软件开发需要专业人士
简单软件可以让机器开发甚至不需要开发,复杂软件的开发到底能实现到什么程度,还有待观察。
数据资产化
结合区块链技术实现
Transformer模型为什么脱颖而出?它哪里厉害?
是目前主流大模型的底层结构。
它提供了一种全新的自然语言处理方法
像人类一样一眼读全段甚至全文,充分理解文本内容,而不像传统的处理方法逐字逐词逐行逐句去处理,那样不仅效率低,而且很容易出现“误解”和“遗忘”前文的问题。
效率很高
能快速处理整个句子甚至段落。
在翻译、自然语言处理方面性能出色
影响力广泛,它影响了许多AI领域的发展
通用性强
AI框架和产品拿来使用时要关注的重要点
许可协议,是否开源,是否可商用,这至关重要
参数量,这个决定着它的能力和性能,在实践中也很重要
智能体
传统的智能,一问一答,给出结果,已经可以避免人工检索筛选信息的繁复过程
智能体具有独立决策和思考的能力
它拥有一个相对独立的处理任务的上下文环境和数据场景
能够使用工具完成任务的规划
智能体是人工智能发展的高级应用
细分领域的智能体对改进生产力和生产效率有重大意义
微软/OpenAI系
GPT
GPT,Generative Pre-Training,创成式预训练 GPT的发展是划时代的,以前的机器学习,都是需要人工干预和监督的,要不然容易学着学着走偏了,走火入魔,GPT不需要,它能自己学习。 衡量GPT成果的两个重要指标 模型,就是指机器到底怎么学,预期会有什么成果 参数量,就是拥有多大的算力,能对多少海量的数据进行学习和处理 OpenAI的GPT的模型是非常优秀的,但是它最初的时候,参数量严重不足,所以并没有杰出的成果,因为解决参数量的问题需要大量的资金,所以,OpenAI进行了转型,改变了自己的商业模式,从一个非盈利机构变成了一个有限盈利机构(又称收益封顶盈利组织),此时微软入局,不仅前后陆续投资了了大约100亿美元现金,还提供全球第五的超级计算机,所以GPT得到了快速发展。
2015年,OpenAI成立
马斯克是投资人。
开源,所有研究成果和专利都是公开的
马斯克2018年退出董事会
2018年6月提出的基于Transformer模型的自然语言处理框架
GPT是通用语言模型
通过写作对话解决问题
采用的是单向的Transformer模型
采用的Pre-Training + Fine-Tuning训练模型
预训练 + 终微调。
GPT-2
2019年11月推出
是GPT的改良版
能够通过上文生成下文
拓宽并加大了数据集
更加的“博览群书”了
扩大网络容量
Transformer堆叠层数达到48层、可参数量达到了15亿
调整网络结构
词汇表达到5万多
文本生成能力大幅提升
使得Zero-Shot成为可能
Zero-Shot即零次学习,是指利用过去的已有已知的知识,根据一定的推理过程,实现对新对象的识别和辨认。 例如,传统的机器学习模型训练出来的人工智能机器人,通过大量的猫和狗的数据的训练,它能识别所有的猫和狗了,但是它仍然不认识老虎,Zero-Shot就是在具备一定的要素的情况下,虽然过去没给过老虎的数据训练过,仍然能识别老虎。 当然了,一个不小心,也有可能导致机器“创造”出一个事实上并不存在的“怪物”,比如长了角的老虎。
GPT-3
GPT-2的新一代版本
2020年6月推出
可学习参数达到了1750亿
相比GPT-2提升了100多倍
这是因为微软收购注资了,有钱了呀。
但是学习参数量的增加对于GPT能力收益是递减的
增加到一定程度,再增加,提升效果就越来越不明显了
对子任务,GPT-3不做梯度更新和微调
模型和GPT-2一样
拥有对抗学习的能力
对抗学习本质上是对机器学习的过程和输出结果进行调度控制的一种技术。 为什么需要对抗学习呢?因为一些经过精心设计的过程,可能导致机器学习的结果出现预期之外的情况。例如:一张大熊猫的图片,如果被人为的添加了某些要素,比如干扰噪点或者其他笔划,有可能导致它最终不是大熊猫了,甚至成为猿猴了。再比如:当一个人戴上眼镜之后,被识别成另外一个人了。
为了解决一些非客观性的问题,加入了训练结果人工反馈机制
某些问题的训练,结果是客观的,比如下棋,而某些问题的训练,结果是非客观的,比如两个人的对话。
不再开源,使用它的API需要付费
微软的钱不能打水漂啊!
目前计费方式是0.02美分/1000个tokens
一个英文单词通常是0.75到1个token,一个汉字大约是2个token。计费的token还包括API中本身所需要的其他一些信息,比如提示文本等等。
GPT-3.5
2022年3月推出
再次进行了一系列的优化

更多的是一些底层模型和参数以及算法方面的调整
GPT-4
据说在文学创作和商务咨询方面改善明显
深度理解和长篇生成任务更加优秀
GPT-4 Turbo
GPT-4的优化版本
降低成本
提升性能
商业应用的针对性优化
扩大上下文窗口
达到128k
GPT-4o
当前的明星产品
GPT-4的优化版本
优化了资源占用
比GPT-4 Turbo成本下降50%
优化了性能
比GPT-4 Turbo速度快出5倍
优化了一些特定领域的算法
如视觉和音频处理、编写程序代码、数据分析处理等
对中文支持很好
ChatGPT
2022年11月推出
以Web页面为载体的聊天机器人
目前ChatGPT提供了付费账号,价格为20美元/月
据说付费账号比免费账号更加稳定一些
已知较好的应用场景
写稿
也就小学一二年级的作文水平吧
翻译
这个应该还是不错的
写代码
写点独立的代码是可以的,完成一个复杂的需求是难以想象的
进行文本分类处理、提取要点等
似乎还不错
搜索引擎
这一点很重要,目前在Bing搜索上已经有较好的使用。
理解用户,直接给出想要的结果,大大节省了在海量的搜索结果中筛选的过程
。。。
已知问题
在线人数很多,很不稳定
国内不能用,必须得翻到外面去
写出的稿件太生硬太机械,并不具备与读者进行良好的感情互动的能力
最新的知识它目前还不懂,它是基于以前旧的知识学的
说的像人类,管不了对不对
目前已经总体上像一个人类一样在不断的推导,不断的输出结果,是在交流了,但是更像一个3岁的小孩子,他很聪明,记忆力也很好,能讲出很多话来,但是他对自己所说的话,其实是不懂的,达达不到人类互动的这种水平。比如一个3岁的小男孩,他在那里学大人说自己要娶个媳妇,惹的大家一顿哈哈大笑,大人笑,是因为觉得这个孩子可爱,这么小就说这大人的话,太逗了,而他自己笑,是因为觉得大家喜欢他,觉得他说的话好,所以他也很开心,但是他根本不懂娶媳妇个什么事。
据说ChatGPT每天维持运行的开销超过100万美元
与GPT的异同
GPT是一个模型,更偏低层
ChatGPT是一个应用,更偏用户
Sora
一个文本生成视频的大模型
目前只给ChatGPT Plus(也就是付费订阅)用户使用
它基于Transformer架构
重大事件
2023年3月份发布的GPT4不是一个开源的大模型
2024年7月9日起,中国不可以再使用OpenAI的API
GPT系列的发展,具有非常强烈的「微软特性」
性能强劲
功能强大
产品优异
走向闭源和完全商业化
所以要考虑业务和应用场景,再决定使用哪一个大模型
OpenAI已经逐渐趋向于闭源和商业化
开源与闭源之争,是一场永恒之战。
Anthropic
成立于2021年
该公司由OpenAI(ChatGPT的开发机构)前研究副总裁达里奥·阿莫迪(Dario Amodei)、大语言模型GPT-3论文的第一作者汤姆·布朗(Tom Brown)等人共同创立。
Claude 3
2024年3月发布
Claude 3.5 Sonnet
2024年6月发布
十分强大的视觉模型
有测评认为比GPT-4o强大
价格降为1/5,速度翻一倍
有免费版
有订阅版
Google系
Bert
由Google在2018年提出的基于Transformer的自然语言处理框架
采用的是双向的Transformer模型
不经过Mask的Transformer,也就是与Transformer文章中的Encoder Transformer结构完全一样
采用的Pre-Training + Fine-Tuning训练模型
预训练 + 终微调。
主要用于对文本的理解、问答
Gemini 1.5
开源大模型
轻量级
有2B和7B两个版本
支持文本到文本处理
支持调优
与GPT-4o的差异并不是很大
Gemini Pro
也是一个自然语言处理模型,与Bert同根同源,但是也有不同
后发优势
能处理多模态数据
Gemma 2
2024年6月27日在Google I/O Connect大会上发布
可在Google AI Studio中使用
开源模型
目前有9B和270B参数两个版本
官方说还将发布2.6B版本,可以在手机上运行
这个可太期待了,可惜是Google的,恐怕在国内无法直接运行,得“想别的办法”才有可能使用。
推理性能更高、效率更高
官方说Gemma 2-9B 模型优于 Llama 3 8B
安全方面也有许多改进
使用了知识蒸馏而不是下一个token预测完成轻量级模型的训练
Meta/Facebook系
推荐。
Llama-1
有人称之为羊驼。
2023年2月发布
性能出色,对称可对标GPT3
训练数据集包含大约1.4T token
有7B、13B、30B和65B四个参数量版本
最大参数的版本超越了GPT3
开源发布
支持继续熟练和微调
为Llama模型的生态圈快速建立发挥了重要作用
开源协议有问题,不可以免费拿来商用
Llama-2
2023年7月发布
有7B、13B、34B和70B四个参数量版本
除了34B的版本之外,其余版本已开源,可免费商用
基于Llama-2的代码生成工具Code-Llama
2023年8月发布,有7B、13B、34B和70B四个参数量版本
Llama-3
2024年4月发布的开源大模型
开源了代码和参数,没有开源训练过程
效率更高,性能更强,推理能力取得了极大进步
对Transformer模型的实现有独到之处
优化了解码器
优化 注意力机制(Self-Attention)
小规模的用8B参数就够了
中等规模的可以使用70B参数的
据称代码生成功能很优异,在自然语言理解方面也很不错
苹果系
Ferret
OpenELM
DCLM
Midjourney
简称MJ
专业的AI绘图大模型
生成的图质量很高
性能很好
使用方法
与Discord绑定
在Discord上登录之后,付费购买之后,可实现一对一作图
在国内使用QQ频道
登录QQ之后打开频道,加入,即可使用
这种交互设计十分优秀,上手容易,门槛低
要学会写提示词
虽然中文也可以,但是推荐使用英文写
商业软件,付费版本
新注册用户有一点点免费试用额度
公司用必须购买商业版,公司年收入超过100万美元必须购买Pro版
Stable-Diffusion
简称SD
专业的AI绘画大模型
开源免费
相比MJ,稍微有一点学习和使用成本
SD针对N卡做了特别优化,比A卡和纯CPU渲染要强许多
Mistral AI
法国的一家独角兽。
Mistral Nemo 12B
国产系
待全面研究之后再完善
百度
闻心一言
腾讯
混元大模型
阿里
通义千问
科大讯飞
讯飞星火
昆仑万维
位于北京,最开始是一家游戏公司,后来涉足软件下载、人工智能、AIGC等多个领域。
天工
零一万物
2023年7月,经过三个月筹办期,李开复亲自带队孵化的AI2.0公司首度对外亮相,正式官宣“零一万物”新品牌,官网(01.AI)同步上线。
Yi-1.5
双语模型
Yi-34B
上下文窗口200K
Yi-9B
Yi-Large
开源模型
旗舰模型
提供商用服务,¥20/百万tokens
比ChatGPT便宜多了
已登陆阿里云百炼平台
Yi-Large-Turbo
AI助手产品——万知
一站式AI工作平台,可以做会议纪要,可以写周报、解读财报、写论文、做PPT等等。
百川智能
成立于2023年4月10日,由前搜狗公司CEO王小川创立。
Baichuan
开源
Baichuan2
闭源
月之暗面
kimi.ai
智能体商店Kimi+
2024年5月10日发布
面壁智能
早在2020年就开始探索对大模型使用微调技术降本增效
降低成本增强效果
基座模型
MiniCPM 1.2B
MiniCPM 2.4B
长文本模型MiniCPM-2B-128k
高水准模型MiniCPM-Llama3-V 2.5
混合专家模型MiniCPM-MoE-8x2B
疑似被斯坦福大学AI团队抄袭
无人辟谣,亦无实证,静观其变吧。
上海人工智能实验室
深度求索
杭州的一家公司
开发厂商是做量化的四大天王之一:幻方
时期模型
DeepSeek V1
DeepSeek V2
DeepSeek V3
DeepSeek v3的训练成本是Llama 3的1/10、效果还有超出
成本比别人低这么多,这绝不仅仅是竞争优势,这是碾压局,是致命的存在。
DeepSeek-R1
2025年1月20日发布
性能对标 OpenAI o1 正式版
DeepSeek
同时支持的模型
Math
LLM
Coder
HuggingFace
Hugging Face联合创始人兼CEO Clem Delangue预言道:“更小、更便宜、更快、更个性化的模型将覆盖99%的用例。
人工智能领域的Github
meta的Llama3也在上面
通义千问也在上面
Google的gemma也在上面
stability.ai的Stable-Diffusion3也在上面
。。。
HuggingFace Hub
huggingface.co
hf-mirror.com
国内加速镜像,趋动云
模型仓库
管理模型版本、各类开源模型等
模型集
数据集
它的数据集其实都是放在Github上的,然后通过一些CLI或者GUI工具或者SDK完成下载、加载和使用等。因此也可以将Github上的数据集下载到本地,然后使用这些CLI或者GUI或者SDK直接加载和使用本地的数据集。
也自建模型
SmolLM 135M
SmolLM 360M
SmolLM 1.7B
人工智能的巨大优势
极大的改善了人与机器的沟通成本
人工智能最杰出的,其实不是它的运算能力有多强、执行任务多快,它最杰出的地方,是能较好的理解人类的语言,帮助人类解决一些问题。所以,它的核心首先是沟通,然后才是干活,不可以本末倒置。 人工智能也是机器,机器是帮助人类的,不是控制人类的。
简单的问题不再需要编写代码运行程序就能得到解决了
可以对一些简单的、流水线式的工作代替人类
主流大模型的技术架构
目前主流的大模型都采用了Transformer框架
未来人工智能的待解问题
技术问题
算法的倾向性、偏向性问题
机器人和虚拟人是不同的
机器人是具备智能能力的设备机器
虚拟人是拥有了和真人相同的思维、能力、情感、意识等
AIGC的问题
法律问题
即使学习了法律,客观的问题容易判定,主观的问题其实很难
许多案例现实中实操都很难,更别说机器了
人类的生命可能因为人工智能而得到延伸
虽然真人去世了,但是具备相同思想、思维、意识和情感的人仍然在世间活动
这产生的法律问题如何处理?
我用你的机器人创造出来的内容,版权是你的还是我的?
深度仿制当代的东西呢?深度仿制古代的东西呢?
仿制一款司母戊鼎会怎么样?
我对一部剧不满意,用AI魔改的过程、结果如何管理、认定?
伦理问题
比如诋毁、嘲讽和玩笑其实很难界定
因为它和人际关系、现场气氛甚至一些意想不到的因素有很大的关系
虚拟朋友/虚拟人/虚拟偶像等相关的问题
例如虚拟出来的偶像引发的追粉、才艺服务等
例如虚拟朋友的陪伴引发的家庭社会问题等
例如虚拟老师、科学家的教学引发的能力扩张/扩散问题等
真实人和虚拟人的责权利可能会变的很难界定
安全问题
假新闻、假案情等更容易引发社会安全问题
任意提出需求产生出对社会有危害性的事物如何处理?
人与机器的关系问题
许多人觉得人类有一天会被机器所控制
这是一个富有争议的问题,因为大家都觉得迟早有一天机器会具备感情和思想
目前更倾向于对人工智能的能力进行限制和约束的管理办法
使用机器中,人类的“劣根性”是无法避免的
大多数人类总是倾向于懒惰、多吃多占、不受约束和管制
这会诱导机器产生内容更多的出现符合这些需求的内容
但是人类社会的进步和发展,是依赖 于奋斗创新、开拓进取的
这种日益增墒的事情如何处理?
人类的学习过程受阻
让机器更好的为人类服务,就需要更多的知识和更高的智商调节机器的学习和内容
但是人类的学习届时很大程度来自机器,如何从彼处学而突破彼处?
有意识的机器是否会允许这种事情发生?
。。。
商业模式探索
服务型
IAAS
基础设施即服务
SAAS
软件即服务
阿里云百炼
MAAS
模型即服务
huggingface.co
hf-mirror.com
AAAS
算力即服务
RAAS
机器人即服务
商城型
服务型的超市
消费型
解决方案型
众包
实践/上车
AI产品的应用场景: 舆情分析 座席巡检 低/零代码平台开发 定义一套DSL,自动完成定制化极强的业务代码 个人在AI行业的定位: 使用者,使用AI产品解决业务层面的问题的人,如销售人员,客服人员,财务人员等。 设计者,设计AI给其他人或自己使用,帮助他们解决问题,为他们解决问题提供指导和帮助,产品经理、团队负责人、项目经理、交互设计师、业务核心骨干等。 开发者,使用编程语言和框架,开发各种AI工具,供他人使用,编程开发人员,个人创业者,技术骨干,技术自由职业者。 制造者,也就是底层专业人士,大模型设计开发,算法,训练,优化等,AI研究员,AI科学家,算法师,高级模型开发工程师等。
模型微调
需要一点算力,有成本
内容更新比较慢,但是能够使得模型“举一反三”,增强能力
向量召回
只需要一个向量数据库,成本相对较低
内容更新比较快,就用RAG,快速反馈结果
软件测试
cover-agent
mobile-agent
软件设计&原型
screenshot-to-code
传一个截图或视频,可以生成一个带交互功能的原型。