论文得到的一个重要结论是:与直接微调GPT-3得到baseline模型相比,训练一个verifier能和一个参数大小x30倍的baseline达到大致相同的性能提升,并且随着数据的增加,verifiers明显更好。

下面是几点说明:

  1. 论文直接采用GPT-3预训练模型作为初始化模型,没有进行额外预训练。Pretraining环节仅介绍数据集;
  2. Fine-tuning环节将记录Finetuning方法;
  3. Verifification环节将记录Verification方法。

Pretraining

Fine-tuning

Verification