导图社区 第八讲 马尔可夫决策
马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报 。MDP的得名来自于俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков),以纪念其为马尔可夫链所做的研究
这是一篇关于抽样与参数估计的思维导图,其内容主要从抽样分布,参数估计以及样本量的确定这三个方面的2内容讲述
这是一篇关于第十讲 离散事件系统与仿真的思维导图,主要内容有概念、基本元素、部件与结构等。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第八讲 马尔可夫决策
背景
在经济管理现象中存在一种“无后效性”,即“系统在每一时刻的状态仅仅取决于前一时刻的状态,而与其过去的历史无关”。这种性质称为马尔可夫性
马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯的做出决策。即根据每个时刻观察到的状态,从可用的行动集合中选一个行动做出决策,系统下一步的状态是随机的,并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态,再做新的决策,依次反复地进行。
马尔科夫链