n.相关资源
BenchMark¶
现存baseline大多都是offline预训练,然后再环境上微调,所以如果我们online预训练,可以自己在环境上微调评估。
-
Atari Training Benchmark:
测试预训练的RL agents,offline training + offline/online finetuning。其中offline是行为克隆,从专家agent产生的数据集中学习。有三类环境——预训练数据集内的游戏,类似的游戏Near-OOD, 差的很多的游戏Far-OOD。
模型架构是由resnet的backbone学习任务无关的空间特征,在预训练时学习,微调时冻结。neck将空间特征转化为潜在向量,再交给单独为每个游戏训练的头,输出action distribution。
-
URLB:
一整套流程,先指定agent进行websitetrain,再从checkpoint加载,进行finetuning, 在deepmind control suite上,一定步数内进行微调。一共有三个domain,每个domain有四个任务。但是测试的是提供内在奖励的算法,框架定好了是DDPG,也和我们的不太符合。
-
Continual World: 测试持续学习能力,先学10个机器臂任务,然后再学一次。metric包含f.transfer——模型复用之前学到的feature的能力,forgetting测试模型学了新任务在旧任务上表现是否下降。
Environments¶
-
DeepMind Control Suite:
- repo 连续控制任务,以及可以自定义任务
-
Meta World:
- repo 分两大类benchmark,多任务benchmark(可在多达50个环境同时学习)和meta-learning benchmark(在一些任务上学习,新任务上测试)。
-
MindGrid&Babyai:
- repo 在一个2维网格地图上完成一些任务
-
Atari:
很多经典小游戏
-
RGB Stacking:
操纵机械臂把不同颜色,不同形状的积木叠起来。
-
CALVIN
为vision+language输入的机器人长时序操作任务设计的benchmark。有两类任务,一类是给出较长连续指令,让机器人完成多步骤的任务;一类是多个单步指令无复位。
-
D4RL
许多与现实生活相关的任务,包含机器手,厨房环境设置,走迷宫等等。定位是为offline RL提供数据集,但也可以online学。
-
AndroidControl
在实时 Android 模拟器上运行,有大量随机参数的任务,如增删联系人,添加日历事件等,很考验泛化。
-
DMControl :连续控制任务集,评测智能体(agent)在视觉上的泛化能力, 会在视觉上对齐进行干扰,比如改变背景颜色。
Baseline¶
预训练的框架一般分为三种baseline:和learning from scratch(没训练, 权重随机初始化的相同架构);和domain expert(很多时候比不过,用来讲性能trade-off), 先前的通用智能体:
-
DrQ v2: 21年,model-free,off policy
-
Dreamer v3: model-based, actor+critic,先学习一个世界模型,再在其中进行模拟
-
EfficientZero V2
-
RoboCat: 未开源
-
Gato/JAT/NEKO
智能体/框架 | 核心架构 | 离线数据类型 | 离线训练方法 | 主要适应机制 | 主要评估模式 | 关键评估基准 | 核心贡献主张 | 主要对比基线 |
---|---|---|---|---|---|---|---|---|
Gato | Transformer序列模型 | 专家数据,多模态 | 监督模仿学习 | 监督微调/上下文学习(理论上) | 已见任务多任务性能 | Atari, Meta-World, 真实机器人等604个任务 | 单一模型可处理大量多模态多体态任务 | 领域专家模型 |
GEA | Transformer序列模型(基于MLLM) | 专家/混合质量,多领域 | 监督微调(SFT) | 在线强化学习微调 | 在线微调后评估(适应效率) | CALVIN, Habitat, Procgen, LangR, AndroidControl | 跨领域数据和在线RL对通用智能体至关重要 | Gato, 领域专家模型(如MLLM+IL) |
WPT | 世界模型(RSSM) | 非结构化,无奖励,多体态 | 自监督世界建模 | 基于模型的在线RL微调 | 在线微调后评估(样本效率) | DMControl(22个任务), Meta-World(50个任务) | 利用非结构化数据预训练世界模型提升RL样本效率 | 零起点训练(DrQ v2, Dreamer v3) |
SODP | 扩散规划器 | 次优,任务无关 | 生成式行为建模 | 在线强化学习微调(策略梯度) | 在线微调后评估(适应效率) | Meta-World(50), Adroit(3) | 从次优数据预训练,实现下游任务的快速适应 | 离线RL基线(Cal-QL), 多任务RL(HarmoDT) |
GenRL | 世界模型(生成式)+VLM | 视觉数据(无语言标注) | 自监督世界建模+对齐 | 在想象中强化学习(零样本泛化) | 已见/未见任务零样本评估 | DMControl, Kitchen | 世界模型实现从语言/视觉到行为的零样本泛化 | VLM奖励离线RL(WM-CLIP, TD3) |
REGENT | 检索增强Transformer | 专家/混合质量 | 监督模仿学习(含检索上下文) | 上下文学习(通过检索) | 未见任务上下文学习评估 | Meta-World, Atari, ProcGen | 检索增强实现无需微调的快速上下文适应 | Gato(微调), MTT, R&P |
OTTER | Transformer(冻结VLM编码器) | 专家/混合质量 | 监督模仿学习 | 零样本(文本感知特征提取) | 未见任务零样本评估 | 真实世界拾取-放置, LIBERO(模拟) | 冻结VLM编码器,文本感知特征提取实现零样本泛化 | Octo, OpenVLA |
Finetune¶
LoRA¶
LoRA通过在预训练模型的线性层旁边添加低秩矩阵来实现参数高效微调。核心思想是将权重更新分解为两个低秩矩阵的乘积:
到r的选择,任务与预训练相差越大,选择r越大会好一点。大概率选这个。
QLoRA¶
QLoRA结合了4-bit量化和LoRA,将预训练模型量化为4-bit存储,同时使用16-bit的LoRA适配器进行微调。主要是更节约资源。
Adapters¶
Adapter是在预训练模型的每个Transformer层中插入小型瓶颈网络。典型结构:down-projection → 激活函数 → up-projection + 残差连接。可以针对不同任务训练不同的adatper头。也是针对多任务的可选项
Prefix Tuning¶
它为模型每一层的 Attention 模块的 key 和 value 向量前,各自添加一小段可训练的连续向量,但训练不稳定,性能也一般
Last Layer Tuning¶
基于这样的假设:底层特征是通用的,而高层特征更任务特定。只微调模型的最后几层,保持其他层冻结。