导图社区 工业大数据中的运作优化
工业大数据中的运作优化
运筹优化与数据挖掘课题的差异
数据分析课题
数据分析课题:从数据中去挖掘隐含规律,背后机理并不清楚
数据分析课题很大程度依赖数据,技术风险在课题定义阶段并不能完全识别
CRISP-DM等方法,特别强调数据分析课题的迭代性
运筹优化课题
在运行机理相对清楚的前提下,平衡各个因素间的制约关系,获得相对优目标量
优化课题技术难度与运筹优化课题类型直接相关,其技术风险取决有课题应用范围
运筹优化课题的风险集中体现在课题定义阶段
几种失败类型
1、应用范畴太大:一味追求“全局优化”,而没有意识到“全局优化”是建立在“全局信息”质量、及时性的基础之上,没有意识到优化算法计算时间随变量数目而多项式甚至指数增长的。在航空运作领域,已经有了很清晰的分解与定义(航线优化、航班计划、Tail Number Assignment, 大规模延误恢复)
2、业务应用场景考虑不完备:仅仅考虑“完美”情形,没有考虑例外情形,造成解决方案不能落地,比如、航班可能存在延误/取消/备降/跳过/紧急调用等各种情形。对分析算法的“非功能性”需求缺乏乐姐(比如计算时间窗口)
3、业务目标不清楚:实际中的业务问题通常是多目标的,如何平衡这些目标;有些“隐藏”的业务目标,灭有访谈出来(或者有些不能摆明面的业务规则)
4、业务逻辑(约束)的变动性:优化算法我们通常期望约束条件是明确固定的(这样优化算法才能有效求解),但实际业务运作中,有很多“软”约束(在可能的情形,尽量满足;如果不能完全满足,就逐步放松)
5、信息源了解不充分:很多数据/信息的获取是有成本的(甚至没有数据源),获取的数据存在时延和数据质量问题。比如,集装箱码头的Yard(堆场)优化建立在对集装箱Arrival相对精准的预测之上。
6、缺乏业务价值的客观估算:相对于当前的手段,到底能带来多大提高。一般来说,运筹优化的提升通常在10%之内(10%之上的提升通常靠业务模式创新、基础设施更新、管理流程优化或信息系统集成),对优化带来的业务价值要保持谨慎的乐观。
运筹优化课题的核心要素
运筹优化
目标函数
目标如何描述?目标是否真实?是否存在隐藏的目标?多目标优先级?
决策变量
什么是可以被决策的(谁、什么时候、决定时间提前量)
约束条件
操作约束(需求/资质等)、资源约束(时间空间/物资/加工能力等)软约束、与现有操作规范如何融合等
运作优化
业务Context
行业的业务逻辑:业务运作流程、行业规范等业务应用场景(biz scenario)、业务用户当前的运作流程、未来的运作流程、业务价值评估
数据Context
数据源、数据的可信度、数据的时效性
IT应用Context
应用架构、系统集成方式(与时间窗口)
运作优化的课题定义
课题定义阶段的目的
消除不确定性:把隐含的业务需求、业务顾虑、例外情形、技术风险都看清楚,保证业务问题技术可解、业务可落地、有实际价值、项目成本可控。
掌控技术难度:根据业务需求,适当简化问题,或分解问题(将复杂问题解耦为若干个独立的小问题),不要“人为”创造“世界难题”
估算工作量:不要忽视例外情形带来的工作量;不要忽视系统集成的工作量;不要忽略“潜规则”(潜在的目标);不要低估“现有规则”改变的难度。
课题定义方式
通常方式:业务访谈
“建模要素”与“Context驱动”穿插
一边了解业务需求/逻辑/限制;一边思考技术实现(模型/算法/计算性能等)
问题定义四阶段
1、访谈前的业务问题定义:根据技术经验或资料调研,对优化的三要素初步描述,对Context形成访谈问卷
2、业务访谈:从业务或优化要素的而角度细化澄清,形成Context的详细描述
3、问题初步建模:根据访谈结果,用半形式化的方式,对优化问题进行描述,形成文档
4、业务确认并求解:初步建模后进行求解并业务确认
业务访谈注意事项
抓住“Trade-off”这一基本规律,否则,决策变量就会走到边界而不是一个中间值。
根据8-2原则,把握主要资源制约因素
按照“金字塔原理”等方式,分解核心业务目标(比如成本构成、加工时间等),细化“隐含”的业务要素。
“例外”情形是度量访谈是否深入的一个准则(一个现实的运作优化问题不可能不存在例外情形)
运作优化的课题探索
用OPL/AMPL等高级语言,借助ILOG等成熟引擎,进行初期的技术可行性验证,方便与业务部门的迭代交流。
在技术实现中,根据应用架构和项目预算,选择合适的优化引擎或启发式算法实现。
信息更多一点
K2D研究院:
昆仑数据(重点研究,见其他)
清华大学工业大数据研究中心/北京工业数据创新中心/北京工业大数据产业发展联盟
北京工业数据创新中心/北京工业大数据产业发展联盟
作者:田春华,清华大学工业大数据研究中心首席科学家、北京工业大数据创新中心首席数据科学家、昆仑数据首席数据科学家,2015年加入昆仑数据。在装备制造、石油石化、新能源、航运等行业,帮助中国、亚太、欧美领先企业,成功实施资产管理、运营优化、营销洞察等各类数据分析项目。 2004年1月清华大学自动化系博士毕业。2004年-2015年在IBM中国研究院工作,负责数据挖掘算法研究和产品工作,分析应用成果在美国西南航空、香港水务署、韩国能源、和记黄埔等国际领先企业实施数据分析项目,发表学术论文(长文)82篇(其中第一作者42篇),拥有50余项项专利申请(包含以公开),2017年带队在全球PHM Data Challenge中获得冠军。研究兴趣是数据挖掘算法与应用。