本研究针对现有自动评估方法在会议总结等复杂任务中存在的不足,提出了一种新颖的评估框架cream。该框架结合了连锁推理和关键事实对齐技术,无需参考即可评估生成摘要的简洁性和完整性,采用elo排名系统为不同模型或提示配置的质量提供了可靠的比较机制。
本研究评估了闭源和开源大型语言模型,发现较小的开源模型如llama-2-7b在性能上可与大型闭源模型相媲美。考虑到闭源模型的隐私问题和高成本,开源模型更适合工业应用。llama-2-7b模型在性能、成本和隐私问题上取得平衡,具有前景。该研究提供了使用大型语言模型进行实际业务会议摘要的实用见解。