本研究解决了现有工具使用基准数据集在评估场景和评估成本方面的不足。通过提出名为mtu-bench的多粒度工具使用基准,我们涵盖了五种工具使用场景,并采用基于预测结果和真实情况的评估指标,避免了高成本的评估方法。实验结果表明,mtu-bench有效提升了大型语言模型的工具使用能力。
本研究提出了mtu-bench,一个多粒度工具使用基准,解决了现有工具在评估场景和成本上的不足。它涵盖五种工具使用场景,采用基于预测和实际结果的评估指标,降低评估成本。实验表明,mtu-bench有效提升了大型语言模型的工具使用能力。