All of them update estimates of the values of states based on estimates of the values of successor states. That is, they update estimates on the basis of other estimates. We call this general idea bootstrapping
贪婪策略,根据策略提升定理可知,
每一步选择最优的即可
当新策略与旧策略一样好的时候,
价值函数 v 形式与 v* 一致,此时
的新策略一定是最优策略
价值迭代,策略迭代中需要 I,也是一个迭代过程,
在部分迭代轮次中是可以省略掉 I,直接贪婪的。
而价值迭代最终也会迭代到 v*