2018 年奥斯卡最佳真人短片《沉默的孩子》中|国际聋人节:Google 将科技与无障碍设计结合

2018年奥斯卡最佳真人短片《沉默的孩子》中 , 当妈妈出门前对莉比说“拜拜莉比 , 爱你”的时候 , 听不见的莉比只是看着电视 , 然而在影片结尾 , 当莉比隔着围栏对家教老师用手语比出“我爱你”的时候 , 莉比对“表达”与“被理解”的渴望直击人心 。
今年的9月26日是第64个国际聋人节 。 据世界卫生组织数据显示 , 全球有15亿人患有某种程度的听力损失 , 人工耳蜗和助听器是他们的“义肢” , 慢速播放是他们在互联网生活中的常态 。 好在 , 科技更迭 , 给听障人群带来了更多的可能 。
打破“障碍” , 让每个人能平等地探索生活和世界 。 这也成为包括Google在内 , 许多科技企业、社会机构关注的方向 。
人工耳蜗语音增强技术研究
许多耳聋或听障人士无法轻易获得无障碍服务来辅助日常口语对话 , 助听器虽然有所帮助 , 但对于听力受损严重甚至耳聋的人士 , 就需要借助人工耳蜗(CI) 。 人工耳蜗是一种电子设备 , 通过外科手术放入内耳中 , 并通过外部声音处理器将声音信号转换为电信号 , 刺激耳蜗残存的听神经 , 从而产生听觉 。 CI领域仍然面临的主要挑战是如何最好地处理声音 , 即如何将声音转换为电极上的脉冲使它们更易于理解 。 Google对人工耳蜗进行了探索性研究 , 实验了一些增强CI用户对语音的理解的办法 。
2018 年奥斯卡最佳真人短片《沉默的孩子》中|国际聋人节:Google 将科技与无障碍设计结合】2019年 , Google在一个小型内部项目中 , 邀请参与者聆听了60个预录制/预处理的音频样本 , 并请他们对舒适度进行评分 。 结果显示 , 聆听使用噪声抑制器处理过的语音 , 舒适度和理解度通常都会增加 , 证明语音增强预处理器(特别是噪声抑制器)可用于处理器的输入 , 增强用户在嘈杂环境中对语音的理解 。
2018 年奥斯卡最佳真人短片《沉默的孩子》中|国际聋人节:Google 将科技与无障碍设计结合
文章图片
语音增强网络被训练为抑制非语音 , 包括音乐 , 所以需要采取额外措施才能保留这一重要的用户享受 。 为此 , Google创建了原始音频与降噪音频的“混合” , 以便让足够多的音乐通过以保持可听性 。 在抑制非语音(例如噪声和音乐)的语音增强模块 , Google将原始音频转换成神经网络可使用的形式后 , 通过AI模型生成声音特性 , 并根据这些特性生成两个“掩码” , 分别作用于语音和非语音 , 然后通过将“掩码”与特性相乘 , 把分离的语音和背景音重建回音频域 , 最后进行混合一致性处理 , 提高音频质量 。 该模型对每2.5毫秒的输入音频进行估算 , 因此可以实时使用 。
Google通过研究展示了未来功能更强大的人工耳蜗可以实现的性能 , 也凭借该成果 , 在由人工耳蜗制造商AdvancedBionics、加州大学旧金山分校和明尼苏达大学共同举办的2020CochlearImplantHackathon比赛中获得第二名 。
为视频会议软件开发实时手语检测模型
大部分视频会议软件无法识别手语 , 因此当参会者需要通过手语进行交流时 , 他们无法被判断为发言人 。 Google认为 , 视频会议作为人们工作生活交流的重要平台 , 每个人都应该能够平等地使用它们 , 尤其在疫情限制出行的情况下 。 于是 , Google开发了实时手语检测模型 , 通过人体姿势来判断参会者是否正在使用手语“说话” 。
因为需要使用大量视频源作为输入来执行分类 , 所以Google设计了一个轻量级的模型 , 减小对CPU的消耗 , 以最大程度避免检测过程对通话质量的影响 。 当检测模型确定用户正在使用手语 , 它会通过虚拟音频电缆传递超声波音频 , 这虽然超出人类的听觉范围 , 但可以被视频会议软件检测到 , 并认为是用户正在发出声音 。