IBM 发布了自动为新闻播报生成字幕的 AI 模型

近日，IBM 研究院发布了自动为新闻播报生成字幕 AI 模型的研究报告。据两项测试实验的结果显示，该语音识别系统的错误率分别为 6.5% 和 5.9％，而人类识别的错误率分别为 3.6% 和 2.8%。

△ 图源：IBM，下同

早在两年前，IBM 就已经创造了对话式电话语音领域（CTS）转录的性能记录。在这个领域，语音识别系统需要做的工作很多。例如，系统必须处理失真、以及来自多个不同电话通道的即兴演讲，并且这些对话式语音还可能有多个对话者重叠、中断、重新开始或重复确认的情况。

新闻播报（BN）的语音识别任务也很有挑战性。语音识别系统需要处理多种说话风格、背景噪音以及广泛的新闻领域内容。一些情况下系统还得处理多种题材混合的语音材料 —— 像是现场采访、电视节目的剪辑内容等。

△ 研究进展：CTS 及 BN 测试集单词错误率逐年降低

为了成功地识别复杂的语音内容、给新闻播报内容生成字幕，IBM 研究团队通过语音识别技术，建立了一套深度神经网络。该深度神经网络在整合了长短期记忆网络和深度残差网络（residual network，ResNet）的基础上，结合了辅助的语言模型。其中，以 ResNet 为基础打造的声学模型是含有多达 25 个卷积层的深度卷积网路，使用 1,300 个小时、多种不同的新闻内容资料来训练生成字幕的 AI 模型。

虽然机器的语音识别正在逐渐接近人类水准，但目前的实验数据显示，人类的语音识别表现仍旧好得多。IBM 也表示，在这一领域仍有很大技术改进的空间。

对文章打分

IBM 发布了自动为新闻播报生成字幕的 AI 模型

最新资讯

编辑精选

热门评论

相关文章

IBM中国研发部门正式停运：1800人失业

IBM与GlobalFoundries就合同和商业机密纠纷达成和解

IBM云计算平台为开源项目提供永久免费服务器提供2核心8GB内存100GB硬盘

IBM携手高校业界合作伙伴在芝加哥投资建设国家量子算法中心

IBM官宣全新光学技术用光也能训练AI？

IBM光学技术迎来突破实现光速人工智能训练

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密