当前位置: 首页 > news >正文

无需重训练即可教语音识别器学习新词

近年来,自动语音识别(ASR)已全面转向全神经网络模型。连接时序分类(CTC)损失函数因其不依赖上文语境即可预测的特性,成为端到端ASR系统的理想选择,这种特性使得模型结构简单且推理延迟低。与早期依赖词典匹配音素的混合ASR模型不同,全神经网络模型难以适配罕见词或陌生词。由于CTC模型缺乏上下文依赖(每个时间步的预测独立于先前输出),对其进行新词偏置尤为困难——而这恰恰是其实现低延迟解码的优势所在。

当ASR应用面临持续变化的业务词汇(如新闻中出现"Zelenskyy"等新名字,或用户通讯录新增联系人)时,该问题尤为突出。通过包含新词的数据集重新训练模型,对于大型模型更新而言存在难以承受的时间和经济成本。在2022年语音语言技术研讨会(SLT)发表的论文中,我们提出了一种无需重训练即可使CTC模型正确转录新实体名称的方法。该方法包含多种针对实体列表的偏置技术,可同时作用于模型的编码器(将输入转换为向量表示)和束搜索解码器(评估候选输出序列),通过组合应用最大化准确转录概率。

在包含复杂医学术语(如疾病和药品名称)的数据集上,该方法将ASR模型对这些实体的F1分数(综合考量假阴性和假阳性)从无偏置模型的39%提升至62%。同样,在收录欧洲议会录音的公开基准Vox Populi上,该方法将罕见实体(城市名称、人名等)的识别F1分数从49%提升至80%,且无需对基础ASR模型进行任何重训练。

编码器偏置技术
我们通过上下文适配器模块对冻结权重的基模型进行偏置。该模块以训练样本中的罕见词为输入,学习从子词序列到音频表征的映射关系。基网络利用编码器中间层(第6层和第12层)的附加CTC损失来生成子词序列,使模型能通过近似历史输出影响当前帧预测。适配器采用这些中间层表征的加权和作为音频表征,从而抵消CTC模型的条件独立性假设。推理时,适配器会嵌入罕见词列表,注意力机制在每帧音频尝试匹配名称嵌入与音频表征,也可通过标记忽略所有名称。

解码器偏置技术
我们在推理时应用以下创新方法:

  1. 束搜索中的自适应子词增强:对以实体列表子词开头的top-k序列动态提升概率
  2. 单语素增强:通过OOV/BOOST类将实体词加入外部语言模型
  3. 基于音素距离的重排序:利用中间层网络的音素输出与CTC输出进行强制对齐
  4. 发音词典查询:当音素预测更准确时,用词典实体替换匹配片段
  5. 字素到字素(G2G)转换:通过字素-音素映射表解决实体词的多发音问题

联合模型
将编码器与解码器偏置技术结合后产生叠加增益:编码器偏置提高罕见子词在束搜索中的存活概率,解码器技术则进一步推动罕见词路径进入顶级候选。该方法为零样本个性化CTC-ASR系统的实现提供了重要技术路径,这类模型正日益成为ASR系统的主流选择。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码

http://www.vanclimg.com/news/1968.html

相关文章:

  • llama.cpp编译过程中的cmake版本问题 - Luna
  • 如何高效使用Cursor AI编程助手提升开发效率 | 完整配置与使用指南
  • WPF MVVM 入门学习笔记:从零开始理解 CommunityToolkit 与 ObservableObject 详解
  • 为所有人提供TSC频率:更精准的性能分析与基准测试
  • Js 内存管理和闭包
  • js高级第二天
  • 双向循环链表完整实现与详解
  • CSS 线性渐变
  • VMware ESXi 8.0U3g 发布 - 领先的裸机 Hypervisor
  • 装机软件记录
  • day3_javascript1
  • day4_javascript2
  • 电化学
  • 亚马逊AutoML论文获最佳论文奖
  • 前端加密实现
  • SQL注入漏洞
  • MX galaxy Day16
  • 30天总结-第二十八天
  • 金华の第二场模拟赛
  • [Unity] 项目的一些系统架构思想
  • 多github账号的仓库配置
  • Project 2024 专业增强版安装激活步骤(附安装包)2025最新详细教程
  • MX galaxy Day15
  • Plant Com | 将基因编辑与组学、人工智能和先进农业技术相结合以提高作物产量
  • PhenoAssistant:一个用于自动植物表型分析的人工智能系统
  • 在Docker中,可以在一个容器中同时运行多个应用进程吗?
  • Computomics:利用先进的机器学习实现预测性植物育种
  • 在运维工作中,Docker 与 Kvm 有何区别?
  • 利用分子与数量遗传学最大化作物改良的遗传增益
  • 在运维工作中,详细说一下 Docker 有什么作用?