本研究针对大型语言模型在时间事件预测中的多模态应用,尤其是利用图像数据的潜力尚未得到充分探索的问题。通过提出一个名为mm-forecast的新框架,我们阐明了图像在时间事件预测中所扮演的功能,并证实了将这些功能描述纳入预测模型后,预测性能有显著提升。这一发现为未来多模态事件预测的研究提供了新的方向与方法。
深度学习系统在图像分类、编程和测试中表现出色,但在预测未来事件方面仍有困难。研究使用真实世界数据集和人类预测,提出了评估指标来衡量预测能力,并分析了不同基于llm的预测模型的准确性。结果显示,模型倾向于猜测大多数事件不太可能发生,这不符合实际预测能力。对开发系统化和可靠的llm预测方法的下一步工作进行了思考。