PAL: Program-aided Language Models

论文提出一种新的prompting方法(PAL)，在将问题分解为多个步骤(类似于COT)的同时，生成Python代码，最后通过python解释器求解。论文做出了以下贡献：

从文章的诸多实验中隐约可得，LLMs具备问题分解的能力，但问题计算/求解的能力较差。

作者做了非常多的结果分析和消融实验，得到许多有趣的结论。

Large Numbers or Incorrect Reasoning：论文指出，在大多数情况下大数量级的数字对COT prompt的推理没有造成影响，故运算能力是影响精度的原因；
Multi-sample Generation：通过对k个输出进行抽样，并使用多数投票来选择最终答案，可以进一步改进COT的方法。
Is PAL sensitive to the complexity of the question：论文发现PAL的准确率并不随问题复杂度发生显著变化，如下图所示：
Does PAL work with weaker LMs：使用weaker LMs会导致性能下降，但是相对于COT依旧保持优越性；
Does PAL work with LMs of natural language：未经代码数据训练的LM可能性能不佳；
Is PAL better because of the Python prompt or because of the interpreter：论文在生成python代码后，同时用LLM和python解释器执行代码，发现LLM求解率远远不如解释器的执行结果。