cg-eval 是首个综合评估大型中文语言模型在广泛学科领域中生成能力的研究,以多个指标的加权和为基础派生出 gscore 综合指数,用于评估模型生成的质量。
本论文介绍了gaokao-benchmark,它是一个利用中国高考考试问题作为测试样本的基准测试,用于评估大型语言模型的方法。通过零-shot prompts的分析,发现chatgpt模型在解决客观问题方面表现出色,同时也揭示了其不足和改进方向,为未来大规模语言模型的评估提供了基础和见解。
cg-eval 是首个综合评估大型中文语言模型在广泛学科领域中生成能力的研究,以多个指标的加权和为基础派生出 gscore 综合指数,用于评估模型生成的质量。
本论文介绍了gaokao-benchmark,它是一个利用中国高考考试问题作为测试样本的基准测试,用于评估大型语言模型的方法。通过零-shot prompts的分析,发现chatgpt模型在解决客观问题方面表现出色,同时也揭示了其不足和改进方向,为未来大规模语言模型的评估提供了基础和见解。