2.RPT论文阅读

总述¶

这篇文章为LLM提供了一个新的scaling范式——RPT(Reinforcement Pre-Training)。在pretraining时，使用RL进行next token prediction训练，答对了有奖励。比起传统RL依赖task-specified data,RPT能够让广阔的文字语料被RL利用。并且RPT能够让reinforcement finetuning 更加顺利。