2.RPT论文阅读
总述¶
这篇文章为LLM提供了一个新的scaling范式——RPT(Reinforcement Pre-Training)。在pretraining时,使用RL进行next token prediction训练,答对了有奖励。比起传统RL依赖task-specified data,RPT能够让广阔的文字语料被RL利用。并且RPT能够让reinforcement finetuning 更加顺利。
这篇文章为LLM提供了一个新的scaling范式——RPT(Reinforcement Pre-Training)。在pretraining时,使用RL进行next token prediction训练,答对了有奖励。比起传统RL依赖task-specified data,RPT能够让广阔的文字语料被RL利用。并且RPT能够让reinforcement finetuning 更加顺利。