语音识别技术|交互让机器更智能

一台可以书写的智能交互机械臂 , 用毛笔写下“一起向未来”;一部多足行走机器人和一部跳舞机器人 , 共同跳起了一段舞蹈 , 随后 , 跳舞机器人还单独进行了一段武术表演 , 抱拳开臂 , 马步弓步 , 一招一式憨态可掬 。 这是采访人员在北京声智科技有限公司(以下称“声智科技”)展厅里看到的景象 。
声智科技成立于2016年 , 专注于声学前沿技术和人工智能领域 , 主要面向数智健康、数智城市等场景提供产品和解决方案 。 凭借持续创新研发 , 声智科技获得了吴文俊人工智能科学技术奖、北京市科技进步二等奖等多个奖项 。
突破技术难点
“声智科技是从研发远场语音交互技术起步的 , 你刚才看到的那几个机器人搭载了声智科技研发的智能语音交互技术 。 ”声智科技创始人陈孝良说 , 随着物联网技术的普及 , 语音成为人机交互的新入口 , 支持远场语音交互的产品市场潜力很大 。
“远场语音识别技术面临诸多研发难点 , 比如环境噪声、人声、房间混响的干扰等 。 若采用常规语音处理方法 , 会导致信号失真和资源消耗大 , 使得语音识别技术准确率低 , 应用困难 。 ”陈孝良说 。
凭借深厚技术积累和持续研发 , 声智科技先后攻克了多项远场语音交互关键技术 , 包括回声抵消技术、噪声消除技术、声源定位技术、语音识别技术等 。 如今 , 这些技术已应用于一些消费级电子产品中 , 声智科技也成为国内不少知名企业的合作伙伴 。
“我们意识到 , 伴随着人工智能的快速发展 , 人机交互、协同过程中的多数问题 , 都不能靠单一技术解决 , 需要将语音、图像识别、大数据等技术结合起来 。 只有推进多模态、多技能的融合 , 才能实现更多场景的应用 。 ”声智科技副总裁李良斌说 。
他介绍 , 声智科技的做法是 , 用“多模态”确保机器具有“声、光、电、热、力、磁”多种感知技术;用“远场”解决机器在远距离场域中对多模态信号的分析;用“多技能”赋予智能系统多种能力 , 通过多技能相互协同 , 完成复杂任务 。
基于这种技术理念 , 声智科技研发推出核心技术产品——壹元人工智能开发框架 。 基于这个框架 , 声智科技融合了远场声光、多模态识别等多项技术 , 围绕智慧社区、智慧交通、智慧办公、智慧医院等应用场景 , 提供AI产品及解决方案 。
截至目前 , 声智科技已经参与了50余项国家行业标准的制定 , 拥有国内专利2000余项 。 在2020年前 , 声智科技总融资金额超过3亿元 。 陈孝良说 , 这些融资全部投入到核心技术的持续研发上 。
助力智慧防疫
新冠肺炎疫情暴发以来 , 声智科技自主研发的技术产品 , 用于多地的防疫服务中 。
采访人员刚走进中关村前沿技术创新中心的一楼大厅 , 就听到清脆的声音:“您现在的体温是36.5摄氏度 , 没有发热症状” 。 声音来自一台测温机器人 , 在机器人显示屏上 , 除了实时显示被检测者的红外热成像信息和温度值 , 还能查看全国疫情数据 , 测温精度在正负0.2摄氏度 。
声智科技首席知识官常乐介绍 , 这个测温机器人可在几秒钟内完成1米至6米范围内多个目标的高精度测温 , 支持实时AI语音合成播报 , 自动上传预警信息 。 目前 , 该机器人已在北京、广州、青岛、成都等地落地使用 。
“小易小易 , 上楼”“小易小易 , 去10楼” , 在北京海淀医院的电梯里 , 只需要一句简单的指令 , 就能实现乘梯上下楼 , 全程免按键 , 实现零接触 。
“声智科技研发的智慧语音电梯 , 融合语音与图像等交互技术 , 不依赖手机、IC卡等设备 , 无论使用者是在电梯外 , 还是在电梯轿厢内 , 都可以通过可视化人机交互方式搭乘电梯 。 ”常乐介绍 , 这方便了老人、儿童等用户的日常生活 , 在疫情防控期间还有效降低了接触传播感染风险 。