跳转至

n.相关资源

BenchMark

现存baseline大多都是offline预训练,然后再环境上微调,所以如果我们online预训练,可以自己在环境上微调评估。

  • Atari Training Benchmark:

    测试预训练的RL agents,offline training + offline/online finetuning。其中offline是行为克隆,从专家agent产生的数据集中学习。有三类环境——预训练数据集内的游戏,类似的游戏Near-OOD, 差的很多的游戏Far-OOD。

    模型架构是由resnet的backbone学习任务无关的空间特征,在预训练时学习,微调时冻结。neck将空间特征转化为潜在向量,再交给单独为每个游戏训练的头,输出action distribution。

  • URLB:

    一整套流程,先指定agent进行websitetrain,再从checkpoint加载,进行finetuning, 在deepmind control suite上,一定步数内进行微调。一共有三个domain,每个domain有四个任务。但是测试的是提供内在奖励的算法,框架定好了是DDPG,也和我们的不太符合。

  • Continual World: 测试持续学习能力,先学10个机器臂任务,然后再学一次。metric包含f.transfer——模型复用之前学到的feature的能力,forgetting测试模型学了新任务在旧任务上表现是否下降。

Environments

  • DeepMind Control Suite:

    • repo 连续控制任务,以及可以自定义任务
  • Meta World:

    • repo 分两大类benchmark,多任务benchmark(可在多达50个环境同时学习)和meta-learning benchmark(在一些任务上学习,新任务上测试)。
  • MindGrid&Babyai:

    • repo 在一个2维网格地图上完成一些任务
  • Atari:

    很多经典小游戏

  • RGB Stacking:

    操纵机械臂把不同颜色,不同形状的积木叠起来。

  • CALVIN

    为vision+language输入的机器人长时序操作任务设计的benchmark。有两类任务,一类是给出较长连续指令,让机器人完成多步骤的任务;一类是多个单步指令无复位。

  • D4RL

    许多与现实生活相关的任务,包含机器手,厨房环境设置,走迷宫等等。定位是为offline RL提供数据集,但也可以online学。

  • AndroidControl

    在实时 Android 模拟器上运行,有大量随机参数的任务,如增删联系人,添加日历事件等,很考验泛化。

  • DMControl :连续控制任务集,评测智能体(agent)在视觉上的泛化能力, 会在视觉上对齐进行干扰,比如改变背景颜色。

Baseline

预训练的框架一般分为三种baseline:和learning from scratch(没训练, 权重随机初始化的相同架构);和domain expert(很多时候比不过,用来讲性能trade-off), 先前的通用智能体:

  • DrQ v2: 21年,model-free,off policy

  • Dreamer v3: model-based, actor+critic,先学习一个世界模型,再在其中进行模拟

  • EfficientZero V2

  • RoboCat: 未开源

  • Gato/JAT/NEKO

智能体/框架 核心架构 离线数据类型 离线训练方法 主要适应机制 主要评估模式 关键评估基准 核心贡献主张 主要对比基线
Gato Transformer序列模型 专家数据,多模态 监督模仿学习 监督微调/上下文学习(理论上) 已见任务多任务性能 Atari, Meta-World, 真实机器人等604个任务 单一模型可处理大量多模态多体态任务 领域专家模型
GEA Transformer序列模型(基于MLLM) 专家/混合质量,多领域 监督微调(SFT) 在线强化学习微调 在线微调后评估(适应效率) CALVIN, Habitat, Procgen, LangR, AndroidControl 跨领域数据和在线RL对通用智能体至关重要 Gato, 领域专家模型(如MLLM+IL)
WPT 世界模型(RSSM) 非结构化,无奖励,多体态 自监督世界建模 基于模型的在线RL微调 在线微调后评估(样本效率) DMControl(22个任务), Meta-World(50个任务) 利用非结构化数据预训练世界模型提升RL样本效率 零起点训练(DrQ v2, Dreamer v3)
SODP 扩散规划器 次优,任务无关 生成式行为建模 在线强化学习微调(策略梯度) 在线微调后评估(适应效率) Meta-World(50), Adroit(3) 从次优数据预训练,实现下游任务的快速适应 离线RL基线(Cal-QL), 多任务RL(HarmoDT)
GenRL 世界模型(生成式)+VLM 视觉数据(无语言标注) 自监督世界建模+对齐 在想象中强化学习(零样本泛化) 已见/未见任务零样本评估 DMControl, Kitchen 世界模型实现从语言/视觉到行为的零样本泛化 VLM奖励离线RL(WM-CLIP, TD3)
REGENT 检索增强Transformer 专家/混合质量 监督模仿学习(含检索上下文) 上下文学习(通过检索) 未见任务上下文学习评估 Meta-World, Atari, ProcGen 检索增强实现无需微调的快速上下文适应 Gato(微调), MTT, R&P
OTTER Transformer(冻结VLM编码器) 专家/混合质量 监督模仿学习 零样本(文本感知特征提取) 未见任务零样本评估 真实世界拾取-放置, LIBERO(模拟) 冻结VLM编码器,文本感知特征提取实现零样本泛化 Octo, OpenVLA

Finetune

LoRA

LoRA通过在预训练模型的线性层旁边添加低秩矩阵来实现参数高效微调。核心思想是将权重更新分解为两个低秩矩阵的乘积:

\[ΔW = BA,其中B∈R^(d×r),A∈R^(r×k),r<<min(d,k)\]

到r的选择,任务与预训练相差越大,选择r越大会好一点。大概率选这个。

QLoRA

QLoRA结合了4-bit量化和LoRA,将预训练模型量化为4-bit存储,同时使用16-bit的LoRA适配器进行微调。主要是更节约资源。

Adapters

Adapter是在预训练模型的每个Transformer层中插入小型瓶颈网络。典型结构:down-projection → 激活函数 → up-projection + 残差连接。可以针对不同任务训练不同的adatper头。也是针对多任务的可选项

Prefix Tuning

它为模型每一层的 Attention 模块的 key 和 value 向量前,各自添加一小段可训练的连续向量,但训练不稳定,性能也一般

Last Layer Tuning

基于这样的假设:底层特征是通用的,而高层特征更任务特定。只微调模型的最后几层,保持其他层冻结。