近年来,自动语音识别(ASR)已全面转向全神经网络模型。连接时序分类(CTC)损失函数因其不依赖上文语境即可预测的特性,成为端到端ASR系统的理想选择,这种特性使得模型结构简单且推理延迟低。与早期依赖词典匹配音素的混合ASR模型不同,全神经网络模型难以适配罕见词或陌生词。由于CTC模型缺乏上下文依赖(每个时间步的预测独立于先前输出),对其进行新词偏置尤为困难——而这恰恰是其实现低延迟解码的优势所在。
当ASR应用面临持续变化的业务词汇(如新闻中出现"Zelenskyy"等新名字,或用户通讯录新增联系人)时,该问题尤为突出。通过包含新词的数据集重新训练模型,对于大型模型更新而言存在难以承受的时间和经济成本。在2022年语音语言技术研讨会(SLT)发表的论文中,我们提出了一种无需重训练即可使CTC模型正确转录新实体名称的方法。该方法包含多种针对实体列表的偏置技术,可同时作用于模型的编码器(将输入转换为向量表示)和束搜索解码器(评估候选输出序列),通过组合应用最大化准确转录概率。
在包含复杂医学术语(如疾病和药品名称)的数据集上,该方法将ASR模型对这些实体的F1分数(综合考量假阴性和假阳性)从无偏置模型的39%提升至62%。同样,在收录欧洲议会录音的公开基准Vox Populi上,该方法将罕见实体(城市名称、人名等)的识别F1分数从49%提升至80%,且无需对基础ASR模型进行任何重训练。
编码器偏置技术
我们通过上下文适配器模块对冻结权重的基模型进行偏置。该模块以训练样本中的罕见词为输入,学习从子词序列到音频表征的映射关系。基网络利用编码器中间层(第6层和第12层)的附加CTC损失来生成子词序列,使模型能通过近似历史输出影响当前帧预测。适配器采用这些中间层表征的加权和作为音频表征,从而抵消CTC模型的条件独立性假设。推理时,适配器会嵌入罕见词列表,注意力机制在每帧音频尝试匹配名称嵌入与音频表征,也可通过
解码器偏置技术
我们在推理时应用以下创新方法:
- 束搜索中的自适应子词增强:对以实体列表子词开头的top-k序列动态提升概率
- 单语素增强:通过OOV/BOOST类将实体词加入外部语言模型
- 基于音素距离的重排序:利用中间层网络的音素输出与CTC输出进行强制对齐
- 发音词典查询:当音素预测更准确时,用词典实体替换匹配片段
- 字素到字素(G2G)转换:通过字素-音素映射表解决实体词的多发音问题
联合模型
将编码器与解码器偏置技术结合后产生叠加增益:编码器偏置提高罕见子词在束搜索中的存活概率,解码器技术则进一步推动罕见词路径进入顶级候选。该方法为零样本个性化CTC-ASR系统的实现提供了重要技术路径,这类模型正日益成为ASR系统的主流选择。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码