链式思维 (chain of thought) 的理由序列已被证明能在问题回答等任务中有效提高语言模型的性能。最近的研究表明,这种理由序列在模型蒸馏中也能起到作用。通过将这些序列(由大型 “教师” 模型生成)与目标标签一同用于微调小型 “学生” 模型,能显著提高性能。本研究旨在探讨为何以及如何这种额外的训练信号能在模型蒸馏中发挥作用,并报道了一些有趣的结果。
最近的研究发现,使用链式思维的理由序列可以提高语言模型的性能。通过将这些序列与目标标签一同用于微调小型学生模型,可以显著提高性能。本研究探讨了额外训练信号的作用,并报告了一些有趣的结果。