通过研发 mirai 这一新的基准测试,我们全面评估了大型语言模型在国际事件预测方面的能力,从而为国际关系分析的更准确可靠的模型的开发做出了贡献。
深度学习系统在图像分类、编程和测试中表现优秀,但在预测未来事件方面仍有困难。研究使用真实世界数据集和人类预测,提出了评估指标来衡量预测能力,并分析了不同基于llm的预测模型的准确性。结果显示,模型倾向于猜测大多数事件不太可能发生,不反映实际预测能力。对开发系统化和可靠的llm预测方法的下一步工作进行了思考。
通过研发 mirai 这一新的基准测试,我们全面评估了大型语言模型在国际事件预测方面的能力,从而为国际关系分析的更准确可靠的模型的开发做出了贡献。
深度学习系统在图像分类、编程和测试中表现优秀,但在预测未来事件方面仍有困难。研究使用真实世界数据集和人类预测,提出了评估指标来衡量预测能力,并分析了不同基于llm的预测模型的准确性。结果显示,模型倾向于猜测大多数事件不太可能发生,不反映实际预测能力。对开发系统化和可靠的llm预测方法的下一步工作进行了思考。