论文提出一种新的prompting方法(PAL),在将问题分解为多个步骤(类似于COT)的同时,生成Python代码,最后通过python解释器求解。论文做出了以下贡献:
从文章的诸多实验中隐约可得,LLMs具备问题分解的能力,但问题计算/求解的能力较差。
1.which foundation models are based on?
2.which datasets are collected specific for “math”?
3.what types of pre-processing methods are introduced?
5.other information that you think is important
作者做了非常多的结果分析和消融实验,得到许多有趣的结论。
Large Numbers or Incorrect Reasoning:论文指出,在大多数情况下大数量级的数字对COT prompt的推理没有造成影响,故运算能力是影响精度的原因;
Multi-sample Generation:通过对k
个输出进行抽样,并使用多数投票来选择最终答案,可以进一步改进COT的方法。
Is PAL sensitive to the complexity of the question:论文发现PAL的准确率并不随问题复杂度发生显著变化,如下图所示:
Does PAL work with weaker LMs:使用weaker LMs会导致性能下降,但是相对于COT依旧保持优越性;
Does PAL work with LMs of natural language:未经代码数据训练的LM可能性能不佳;
Is PAL better because of the Python prompt or because of the interpreter:论文在生成python代码后,同时用LLM和python解释器执行代码,发现LLM求解率远远不如解释器的执行结果。