导图社区 元强化学习
元强化学习的方法介绍,列出了基于MAML方法(找预训练模型)、基于记忆和推断方法(找包含所有元任务的总任务)、基于对比学习方法(用对比学习出来的特征编码指导策略更新)以及易泛化策略模型的构建方法等。
编辑于2025-06-05 20:18:54元强化学习
背景
见元强化学习_背景
概述
见元强化学习_概述
研究进展
元策略学习方法(什么策略) 元学习强化学习中的策略模块
基于MAML方法: 找预训练模型
主要思想: 找到一个公共的参数使得该公共参数到单独任务最优参数的距离之和最短。
主要实现: 初始化参数之后,使用该参数在随机采样的元训练任务集合上进行优化,每个单独的任务得出一个优化方向,综合这些优化方向找出公共参数应该优化的方向
改进算法:
针对高阶求导的训练不稳定和计算开销大问题: 一阶求导算法:FO-MAML; Reptile (更泛用) 计算效率显著提升; 一阶梯度估计不准,性能差
二阶优化带来的不稳定问题: ES-MAML外层优化以进化算法代替求导 避开二阶求导,增大计算开销
计算误差: ProMP:信用分配(外层引入偏差), Taming MAML (减小外层方差不引入偏差) 提升元强化学习算法的鲁棒性
现状: 理论基础较强没研究脉络完善 性能上较其他方法差 多用于二阶求导目标优化而非模型泛化性能
基于记忆和推断方法: 找包含所有元任务的总任务
基于记忆 记忆POMDP任务的历史降低状态的不确定性
RL2: 基于RNN网络的策略模型,同任务间传递隐状态,跨任务传递网络参数
使用LSTM作为强化学习策略网络结构
SNAIL:结合时序卷积和软注意力机制的深度架构
CMRL:基于注意力机制的transformer模型用作跨情节记忆模块,降低训练成本和时延
基于推断 定义环境为POMDP,基于环境推断任务特征并转化为MDP任务构建策略 经典算法PEARL,及其算法变体
PEARL算法 (特征推断模块)
任务: 从元训练任务的状态输入中推断出属于整个全任务集合的状态输入,将该输入作为AC框架的强化学习算法的状态输入
转换过程: 将对历史t个时刻的信息的编码转化为对每个时刻对应四元组编码的组合(假设任务历史信息时序上置换不影响任务特征表述)
训练过程: 损失函数包含两部分:一是强化学习AC框架中critic网络中的loss,二是保证提取出特征与历史真实信息一致性的信息瓶颈(KL散度函数相关)
思想是将多任务的POMDP任务转化为单任务MDP任务进行学习。 整体训练过程包含特征推断过程训练和强化学习AC框架的训练过程
PEARL算法变体
结合任务上下文编码器
利用LSTM构建任务特征
ML-GP算法,高斯过程+变分推断构建建模任务的隐变量;基于模型的强化学习算法
SAC算法温度自适应调节方法
采用GRU作为历史编码器;选取多任务目标训练RL算法;损失函数取消了与任务特征相关损失函数(性能>=原来)
设计了利用预测环境累积奖励监督训练任务隐变量模块(PD-VF算法)
用变分自编码器(VAE)训练特征推断模块,重建编码器部分由奖励预测和状态预测构成
定义每个任务是POMDP,且部分观测唯一对应于一全观测,设计由MDP到每个POMDP的任务函数转移模型及其模型参数的预测模型
基于对比学习方法: 用对比学习出来的特征编码指导策略更新
主要思想: 学习编码器f,使得对数据集中任意数据x,对构造的正样本x+、负样本x-,在定义的距离度量函数Dist上有:f(x)到f(x+)距离远小于到f(x-)的距离(编码器对同类任务特征给出相同编码,不同任务特征编码尽可能不同) 难点: 正负样本构造 强化学习结合: 1.对比从其他样本中获取更加全面的状态信息 2.对比任务特征编码,对当前策略任特差异较大的任务特征具有更大的探索价值,进行启发式的搜索
相关算法
针对正负样本构造提出infoNCE损失函数(证明最小化损失函数能最大化锚点x和正样本互信息的下界)
强化学习的无监督表征学习方法CURL: 基于动量对比学习方法MOCO,正样本为锚点图像扩充,其余样本负样本
CCM算法:基于MoCo和CURL 正负样本集:同一任务不同时刻任务特征为正样本,不同任务为负样本,训练加入信息增益
TCL算法:正负样本按照采样轨迹划分
DOMINO:互信息分解优化
易泛化策略模型的构建方法
思路:构建可有效迁移泛化的策略模型, 利用任务先验知识设计实现,利用不同的任务特征实现策略演化
ASC算法两层策略框架: 将任务拆解为子任务(平等存在于每个任务中),预训练子任务策略模型,学习针对任务特征进行子任务策略的组合方式(子任务需要无关?)
FLAP: 将策略参数分为通用参数和特有参数,通用参数利用所有任务的通用特征在训练过程中完成,特有参数利用任务特有特征编码生成
强化学习模块元学习方法
探索策略(怎么探索) 交互包括探索和利用,更好的的探索能获取更多的信息,可以在后期利用时获取更好效果
加模块让策略模型学会探索,教元策略怎么高效选取样本和利用样本以适应新任务(元策略:能广泛适用于不同任务的基础策略)
优化目标:损失函数 深度学习在外部学习优化强化学习的优化目标
EPG算法: 内部传统RL,采样任务使用随机梯度下降优化器最小化外层输出损失函数,外层使用进化策略优化器对损失函数进行优化,调整损失函数参数。
AC框架设计可微神将网络目标函数,进一步在AC框架中做了进化, 包括针对策略网络和评价网络都设计参数网络化的优化目标,在设计目标时处理考虑历史信息还考虑对未来的预测
奖励函数 目标量化,子任务目标组合,目标稀疏
参数化奖励函数,预测环境奖励,逆强化学习,离线数据训练奖励函数模型再迁移
环境动态模型 模拟环境交互,减少训练所需样本和训练时间
基于元策略学习方法训练带环境动态模型策略,基于任务表征重建环境动态
超参数元学习
将超参数作为策略参数的一部分呢,设计近似算法从从策略参数传播更新梯度到超参数,目前研究仅限少量重要的超参数
元强化学习设定的新问题
元训练任务设置: 1.元强化学习目的是在通过采样任务集合中得到元训练任务,通过有限少量元训练任务的训练能够很好的完成满足任务分布的元测试任务,重点在于训练策略能够泛化应用于未知的元测试任务 2.主动域随机化和SVPG算法筛选元训练任务,基于任务相关信息选择任务ITTS算法,训练时在元任务上进行无监督探索提升算法鲁棒性(通过探索扩大样本量) 3.基于无监督探索方法再任务集中选取元任务,基于人物特征推理模块构建驱动任务多样性的探索奖励函数用于预训练,目的是选取更具价值元任务。在探索奖励函数中加入最大化轨迹和任务表征互信息目标使得奖励函数可调。 4.根据能够实现指定精度的最优行为近似的元训练任务数量,由估计技术从元训练任务中学习任务分布,训练策略。
元知识复用: 1.针对元测试阶段:元训练过程中获取的大量元知识在元测试阶段哪些是适用当前任务,以及适用的元知识能够被应用多少 2.构建任务特征探索策略,在新任务上首先完成固定轮次的探索获取任务表征。策略目的获取和元知识给出的先验标签差距越大的探索经验。更多的,构建先验任务特征提取器识别任务特征。
元分布外任务泛化: 1.对任务分布外任务的泛化性能,元训练任务和元测试任务服从不同分布 2.元测试阶段对任务元训练样本重新标定(在训练过的样本中找相似),更新任务标识和环境模型;对抗式强化学习算法,交替学习固定任务和更难任务;根据任务隐变量生成模拟任务辅助训练,等于扩大样本
元任务特性: 1.元任务结构相同下,样本任务转化,动作映射变化 2.HTR样本增广算法,针对稀疏奖励。MCAT加入了动作映射模块,针对仅动作排序不同的任务
元强化学习与其他领域的结合
视觉元强化学习 现有的视觉泛化方法在域变化的元强化学习任务上的应用
离线元强化学习 需要加入模块由于离线数据分布偏差导致的任务特征偏差 多任务之间的知识迁移和利用 任务推断,离线数据下对任务样本特征推断较为模糊 任务间信息互补提升策略训练效果
元模仿学习 用模仿学习的监督学习目标替代MAML外层学习目标,或二者加权组合为新目标 WTL算法,利用专家样本构建策略,探索策略采集样本,利用专家样本和采集样本共同训练
持续元强化学习: 持续:多个任务接连到来,算法执行中会产生灾难性遗忘的情况 采用离策略数据进行训练,加入经验和重放和循环神经网络来缓解灾难性遗忘
多智能体元强化学习 针对多智能体通信的元专家策略,元智能体建模,元演员-评论家,智能体信念建模
元强化学习的算法应用
机械臂控制
具身视觉导航
交互式推荐
机遇挑战
基于记忆和推断,对比学习更加实用,任务特征推断的信息瓶颈和VAE框架已经定了
理论研究不足,模块设计没有指导性方法,场景有限