本研究解决了语言模型在工具使用对话中的生成能力评估问题。我们提出了functionchat-bench基准,包含700个评估项和自动评估程序,通过该基准评估多种支持功能调用的语言模型。研究结果表明,尽管模型在单轮工具调用场景中准确率较高,但在多轮对话环境中的生成表现却不一定优越,这表明功能调用所需的能力超越了简单的工具调用信息生成。
本研究提出了functionchat-bench基准,用于评估语言模型在工具使用对话中的生成能力。结果显示,模型在单轮对话中表现良好,但在多轮对话中生成能力不足,表明功能调用能力超出了简单信息生成。