n.相关资源

BenchMark¶

现存baseline大多都是offline预训练，然后再环境上微调，所以如果我们online预训练，可以自己在环境上微调评估。

Atari Training Benchmark:
- 论文
- repo
- website
测试预训练的RL agents，offline training + offline/online finetuning。其中offline是行为克隆，从专家agent产生的数据集中学习。有三类环境——预训练数据集内的游戏，类似的游戏Near-OOD, 差的很多的游戏Far-OOD。

模型架构是由resnet的backbone学习任务无关的空间特征，在预训练时学习，微调时冻结。neck将空间特征转化为潜在向量，再交给单独为每个游戏训练的头，输出action distribution。
URLB:
- 论文
- repo
- website
一整套流程，先指定agent进行websitetrain，再从checkpoint加载，进行finetuning, 在deepmind control suite上，一定步数内进行微调。一共有三个domain，每个domain有四个任务。但是测试的是提供内在奖励的算法，框架定好了是DDPG，也和我们的不太符合。
Continual World: 测试持续学习能力，先学10个机器臂任务，然后再学一次。metric包含f.transfer——模型复用之前学到的feature的能力，forgetting测试模型学了新任务在旧任务上表现是否下降。
- 论文
- repo
- website

Environments¶

DeepMind Control Suite:
- repo 连续控制任务，以及可以自定义任务
Meta World:
- repo 分两大类benchmark，多任务benchmark(可在多达50个环境同时学习)和meta-learning benchmark(在一些任务上学习，新任务上测试)。
MindGrid&Babyai:
- repo 在一个2维网格地图上完成一些任务
Atari:
- website
很多经典小游戏
RGB Stacking:
- 论文
- repo
- website
操纵机械臂把不同颜色，不同形状的积木叠起来。
CALVIN
- paper
- repo
为vision+language输入的机器人长时序操作任务设计的benchmark。有两类任务，一类是给出较长连续指令，让机器人完成多步骤的任务；一类是多个单步指令无复位。
D4RL
- website
许多与现实生活相关的任务，包含机器手，厨房环境设置，走迷宫等等。定位是为offline RL提供数据集，但也可以online学。
AndroidControl
- repo
在实时 Android 模拟器上运行，有大量随机参数的任务，如增删联系人，添加日历事件等，很考验泛化。
DMControl :连续控制任务集,评测智能体（agent）在视觉上的泛化能力, 会在视觉上对齐进行干扰，比如改变背景颜色。
- repo

Baseline¶

预训练的框架一般分为三种baseline：和learning from scratch(没训练, 权重随机初始化的相同架构)；和domain expert(很多时候比不过，用来讲性能trade-off), 先前的通用智能体:

DrQ v2: 21年，model-free,off policy
- paper
- repo
Dreamer v3: model-based, actor+critic，先学习一个世界模型，再在其中进行模拟
- paper
- repo
EfficientZero V2
- paper
- repo
RoboCat: 未开源
Gato/JAT/NEKO
- NEKO repo
- JAT repo

智能体/框架	核心架构	离线数据类型	离线训练方法	主要适应机制	主要评估模式	关键评估基准	核心贡献主张	主要对比基线
Gato	Transformer序列模型	专家数据，多模态	监督模仿学习	监督微调/上下文学习（理论上）	已见任务多任务性能	Atari, Meta-World, 真实机器人等604个任务	单一模型可处理大量多模态多体态任务	领域专家模型
GEA	Transformer序列模型(基于MLLM)	专家/混合质量,多领域	监督微调(SFT)	在线强化学习微调	在线微调后评估(适应效率)	CALVIN, Habitat, Procgen, LangR, AndroidControl	跨领域数据和在线RL对通用智能体至关重要	Gato, 领域专家模型（如MLLM+IL）
WPT	世界模型(RSSM)	非结构化,无奖励,多体态	自监督世界建模	基于模型的在线RL微调	在线微调后评估(样本效率)	DMControl(22个任务), Meta-World(50个任务)	利用非结构化数据预训练世界模型提升RL样本效率	零起点训练(DrQ v2, Dreamer v3)
SODP	扩散规划器	次优,任务无关	生成式行为建模	在线强化学习微调(策略梯度)	在线微调后评估(适应效率)	Meta-World(50), Adroit(3)	从次优数据预训练，实现下游任务的快速适应	离线RL基线(Cal-QL), 多任务RL(HarmoDT)
GenRL	世界模型(生成式)+VLM	视觉数据(无语言标注)	自监督世界建模+对齐	在想象中强化学习(零样本泛化)	已见/未见任务零样本评估	DMControl, Kitchen	世界模型实现从语言/视觉到行为的零样本泛化	VLM奖励离线RL(WM-CLIP, TD3)
REGENT	检索增强Transformer	专家/混合质量	监督模仿学习(含检索上下文)	上下文学习(通过检索)	未见任务上下文学习评估	Meta-World, Atari, ProcGen	检索增强实现无需微调的快速上下文适应	Gato(微调), MTT, R&P
OTTER	Transformer(冻结VLM编码器)	专家/混合质量	监督模仿学习	零样本（文本感知特征提取）	未见任务零样本评估	真实世界拾取-放置, LIBERO(模拟)	冻结VLM编码器，文本感知特征提取实现零样本泛化	Octo, OpenVLA

Finetune¶

LoRA¶

LoRA通过在预训练模型的线性层旁边添加低秩矩阵来实现参数高效微调。核心思想是将权重更新分解为两个低秩矩阵的乘积：

\[ΔW = BA，其中B∈R^(d×r)，A∈R^(r×k)，r<<min(d,k)\]

到r的选择，任务与预训练相差越大，选择r越大会好一点。大概率选这个。

QLoRA¶

QLoRA结合了4-bit量化和LoRA，将预训练模型量化为4-bit存储，同时使用16-bit的LoRA适配器进行微调。主要是更节约资源。

Adapters¶

Adapter是在预训练模型的每个Transformer层中插入小型瓶颈网络。典型结构：down-projection → 激活函数 → up-projection + 残差连接。可以针对不同任务训练不同的adatper头。也是针对多任务的可选项

Prefix Tuning¶

它为模型每一层的 Attention 模块的 key 和 value 向量前，各自添加一小段可训练的连续向量，但训练不稳定，性能也一般

Last Layer Tuning¶

基于这样的假设：底层特征是通用的，而高层特征更任务特定。只微调模型的最后几层，保持其他层冻结。