当前位置：首页 > news >正文

无需重训练即可教语音识别器学习新词

news 2025/9/24 16:54:11

近年来，自动语音识别（ASR）已全面转向全神经网络模型。连接时序分类（CTC）损失函数因其不依赖上文语境即可预测的特性，成为端到端ASR系统的理想选择，这种特性使得模型结构简单且推理延迟低。与早期依赖词典匹配音素的混合ASR模型不同，全神经网络模型难以适配罕见词或陌生词。由于CTC模型缺乏上下文依赖（每个时间步的预测独立于先前输出），对其进行新词偏置尤为困难——而这恰恰是其实现低延迟解码的优势所在。

当ASR应用面临持续变化的业务词汇（如新闻中出现"Zelenskyy"等新名字，或用户通讯录新增联系人）时，该问题尤为突出。通过包含新词的数据集重新训练模型，对于大型模型更新而言存在难以承受的时间和经济成本。在2022年语音语言技术研讨会（SLT）发表的论文中，我们提出了一种无需重训练即可使CTC模型正确转录新实体名称的方法。该方法包含多种针对实体列表的偏置技术，可同时作用于模型的编码器（将输入转换为向量表示）和束搜索解码器（评估候选输出序列），通过组合应用最大化准确转录概率。

在包含复杂医学术语（如疾病和药品名称）的数据集上，该方法将ASR模型对这些实体的F1分数（综合考量假阴性和假阳性）从无偏置模型的39%提升至62%。同样，在收录欧洲议会录音的公开基准Vox Populi上，该方法将罕见实体（城市名称、人名等）的识别F1分数从49%提升至80%，且无需对基础ASR模型进行任何重训练。

编码器偏置技术
我们通过上下文适配器模块对冻结权重的基模型进行偏置。该模块以训练样本中的罕见词为输入，学习从子词序列到音频表征的映射关系。基网络利用编码器中间层（第6层和第12层）的附加CTC损失来生成子词序列，使模型能通过近似历史输出影响当前帧预测。适配器采用这些中间层表征的加权和作为音频表征，从而抵消CTC模型的条件独立性假设。推理时，适配器会嵌入罕见词列表，注意力机制在每帧音频尝试匹配名称嵌入与音频表征，也可通过标记忽略所有名称。

解码器偏置技术
我们在推理时应用以下创新方法：

束搜索中的自适应子词增强：对以实体列表子词开头的top-k序列动态提升概率
单语素增强：通过OOV/BOOST类将实体词加入外部语言模型
基于音素距离的重排序：利用中间层网络的音素输出与CTC输出进行强制对齐
发音词典查询：当音素预测更准确时，用词典实体替换匹配片段
字素到字素（G2G）转换：通过字素-音素映射表解决实体词的多发音问题

联合模型
将编码器与解码器偏置技术结合后产生叠加增益：编码器偏置提高罕见子词在束搜索中的存活概率，解码器技术则进一步推动罕见词路径进入顶级候选。该方法为零样本个性化CTC-ASR系统的实现提供了重要技术路径，这类模型正日益成为ASR系统的主流选择。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码