登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
使用原始音频波形的超深层环境声音识别卷积网络
  • 摘要

    直接从音频的原始波形学习声学模型具有挑战性.当前基于音频的原始波形的模型一般使用很少的卷积层,可能不足以构建抽象的可区分性特征.在这项工作中,我们提出了一个非常深的卷积神经网络(VGCNN),这个网络模型直接使用时域波形作为输入.我们的VGCNN有多达34个卷积层,有效从音频原始序列中(例如,大小为32000的音频原始序列)提取了抽象的可区分性特征.我们的网络是全卷积网络,不使用全连接层和下采样层,以最大化的保留原始特征并且降低参数量.我们用一个在第一卷积层中的大的感受野来提取长时时序,随后的各层卷积中的卷积核是非常小的感受野以便控制模型大小.实验证明我们提出的具有18个卷积层的CNN,在环境声音识别任务绝对精度超过目前主流模型15%.

  • 作者

    戴本尧 

  • 作者单位

    浙江工贸职业技术学院,浙江温州,325003

  • 刊期

    2019年8期

  • 关键词

    原始音频波形  人工智能  深度学习 

相似文献 查看更多>>
54.242.25.198