本研究针对大型语言模型(llms)在算术运算领域表现不佳的问题,提出了一种可组合算术执行框架(caef),使llms能够通过模拟图灵机逐步学习计算。该框架的关键在于其高度可扩展性和对复杂算术运算的有效掌握,实验证明caef在七种常见数学运算中达到了近100%的准确率,明显优于gpt-4o。
研究评估了llama 2模型在数学公式数据集上的表现。结果表明,增大模型规模和进行微调能显著提升性能,尤其在简单公式上效果明显。但即使是最大的微调模型,仍有挑战。
本研究针对大型语言模型(llms)在算术运算领域表现不佳的问题,提出了一种可组合算术执行框架(caef),使llms能够通过模拟图灵机逐步学习计算。该框架的关键在于其高度可扩展性和对复杂算术运算的有效掌握,实验证明caef在七种常见数学运算中达到了近100%的准确率,明显优于gpt-4o。
研究评估了llama 2模型在数学公式数据集上的表现。结果表明,增大模型规模和进行微调能显著提升性能,尤其在简单公式上效果明显。但即使是最大的微调模型,仍有挑战。