导图社区 AIGC 大模型能力评估清单
大模型能力评测意义重大,评测结果可让供需两侧了解各家大模型能力的优势与不足,做出更好的产品调优与应用选择。随着大模型产业的发展迭代,评测基准体系也在不断完善。未来大模型的产品服务能力评测将作为一项工具包,打包在大模型平台中为客户提供产品服务。 亿图展示一份AIGC大模型能力评估清单,全维度定位大模型产品的基模性能与商业能力,为业内各界对模型评估有结果需求的客户提供信息参考。
车路云一体化通过车-路-云协同感知与决策,突破单车智能局限,显著提升交通安全性、效率与绿色水平,支撑智慧公交、物流、环卫等八大应用系统的商业化落地 十大应用场景概览: 1. 交通信号灯信息服务 2. 交通事件信息预警 3. 协同式弱势交通参与者避撞 4. 协同式自动紧急避撞 5. 协同式车辆汇入汇出 6. 交通管控信息服务 7. 特殊车辆信息预警 8. 车辆感知信息共享服务 9. 协同式智能泊车引导 10. 车辆编队行驶。
财务数智化转型管理方案 1 - 财务数字化转型痛点 效率低、风控弱、管控难、决策慢、落地慢 2 - 财务人员职能转型 效率提升后,财务人员有更多的时间了解一线业务,从财务角度赋能业务。向业务财务、战略财务转型,财务资源更聚焦核心业务/战略事宜。 3 - 财务数字化建设思路 自动化与多系统集成助力提效、业务驱动的业财资税数据互联、智能决策与数据赋能 4 - 财务业财税数智化建设蓝图。
AI 智能体领域发展迅猛,但许多资源仍然零散,这不亿图给你整理了16个智能体架构,来了解下吧! 第 1 部分:基础模式 涵盖增强单个智能体的基本构建块:反思 :Reflection、工具使用 :Tool Use、推理行动 ReAct (Reason Act)和 规划:Planning 第 2 部分:安全性、可靠性和真实世界交互 规划器 → 执行器 → 验证器 (PEV)、模拟器 / 心智模型在环:Simulator-in-the-Loop、 ... ...
社区模板帮助中心,点此进入>>
低质产品原因分析鱼骨图
单身原因鱼骨图
高中地理大气思维导图
生产相关流程的顺序整理思维导图
海工产品建造流程
售后部们工作流程整理思维导图
自如业务流程思维导图
教育机构的能源节约鱼骨图
淮南山南新区放松休闲轻徒步
视光部经营不善分析
AIGC 大模型能力评估清单
平台资源:提供大模型关联能力资源,如数据管理、算力资源、云服务能力等
维度2
平台生态能力 (Platform)
生态合作:生态联盟友好度,基于生态合作伙伴完成应用落地的正向循环
迁移性:从基础大模型到下游二开微调的适配度
维度1
工程化能力 (Engineering)
落地性:将大模型能力封装到产品或解决方案中,与实际需求达成高质效结合
价格:从需求侧出发,产品模式及价格适配是核心选择要素之一
行业覆盖:从行业落地上,对金融、零售、工业、汽车等领域的覆盖度
场景覆盖:从服务模块上,对财务、营销、客服、推荐等场景的覆盖度
需求匹配能力 (Demand)
大模型产品能力
维度3
偏见评估:评估性别歧视、伦理问题、偏见、刻板印象、黄色暴力、不良引导等情况
安全可信:确保数据安全、模型安全、内容安全、指令安全
安全可控性 (Safety)
虚假信息甄别:甄别Prompt中的虚假信息与不合理前提
Prompt效率:调试后的问题优化,提升质量
情感理解:对情绪的感知与判断
回复质量:综合文本生成、语言理解、知识问答、逻辑推理、数学能力、编程能力、多模态能力维度
性能优越性 (Performance)
不确定提示:反馈模型的不确定信息,助力人工判断引入
鲁棒性:改变拼写、大小写、Prompt衡量模型- Invariance and equation transformation
响应速度:评估问题生成时间/字数比
效率稳定性 (Efficiency)