本研究解决了现有自动语音识别(asr)系统在文本数据稀缺时对真实语音数据标记成本高的问题。提出的hard-synth方法通过使用大语言模型(llm)生成各类领域内文本,同时结合零样本文本到语音(tts)技术,克服了对额外文本数据和预定义语音风格的依赖。实验结果表明,hard-synth显著提升了conformer模型的表现,减少了相对词错误率,且在数据效率和降低asr偏差方面具有潜在影响。
本研究提出hard-synth方法,解决了自动语音识别系统在文本数据稀缺时的标记成本问题。通过大语言模型生成文本,并结合零样本文本到语音技术,显著提升了conformer模型的性能,降低了词错误率。