2018 年奥斯卡最佳真人短片《沉默的孩子》中|国际聋人节：Google 将科技与无障碍设计结合 2018年奥斯卡最佳真人短片《沉

2018年奥斯卡最佳真人短片《沉默的孩子》中，当妈妈出门前对莉比说“拜拜莉比，爱你”的时候，听不见的莉比只是看着电视，然而在影片结尾，当莉比隔着围栏对家教老师用手语比出“我爱你”的时候，莉比对“表达”与“被理解”的渴望直击人心。
今年的9月26日是第64个国际聋人节。据世界卫生组织数据显示，全球有15亿人患有某种程度的听力损失，人工耳蜗和助听器是他们的“义肢” ，慢速播放是他们在互联网生活中的常态。好在，科技更迭，给听障人群带来了更多的可能。
打破“障碍” ，让每个人能平等地探索生活和世界。这也成为包括Google在内，许多科技企业、社会机构关注的方向。
人工耳蜗语音增强技术研究
许多耳聋或听障人士无法轻易获得无障碍服务来辅助日常口语对话，助听器虽然有所帮助，但对于听力受损严重甚至耳聋的人士，就需要借助人工耳蜗（CI）。人工耳蜗是一种电子设备，通过外科手术放入内耳中，并通过外部声音处理器将声音信号转换为电信号，刺激耳蜗残存的听神经，从而产生听觉。 CI领域仍然面临的主要挑战是如何最好地处理声音，即如何将声音转换为电极上的脉冲使它们更易于理解。 Google对人工耳蜗进行了探索性研究，实验了一些增强CI用户对语音的理解的办法。
【2018 年奥斯卡最佳真人短片《沉默的孩子》中|国际聋人节：Google 将科技与无障碍设计结合】2019年， Google在一个小型内部项目中，邀请参与者聆听了60个预录制/预处理的音频样本，并请他们对舒适度进行评分。结果显示，聆听使用噪声抑制器处理过的语音，舒适度和理解度通常都会增加，证明语音增强预处理器（特别是噪声抑制器）可用于处理器的输入，增强用户在嘈杂环境中对语音的理解。

文章图片
语音增强网络被训练为抑制非语音，包括音乐，所以需要采取额外措施才能保留这一重要的用户享受。为此， Google创建了原始音频与降噪音频的“混合” ，以便让足够多的音乐通过以保持可听性。在抑制非语音（例如噪声和音乐）的语音增强模块， Google将原始音频转换成神经网络可使用的形式后，通过AI模型生成声音特性，并根据这些特性生成两个“掩码” ，分别作用于语音和非语音，然后通过将“掩码”与特性相乘，把分离的语音和背景音重建回音频域，最后进行混合一致性处理，提高音频质量。该模型对每2.5毫秒的输入音频进行估算，因此可以实时使用。
Google通过研究展示了未来功能更强大的人工耳蜗可以实现的性能，也凭借该成果，在由人工耳蜗制造商AdvancedBionics、加州大学旧金山分校和明尼苏达大学共同举办的2020CochlearImplantHackathon比赛中获得第二名。
为视频会议软件开发实时手语检测模型
大部分视频会议软件无法识别手语，因此当参会者需要通过手语进行交流时，他们无法被判断为发言人。 Google认为，视频会议作为人们工作生活交流的重要平台，每个人都应该能够平等地使用它们，尤其在疫情限制出行的情况下。于是， Google开发了实时手语检测模型，通过人体姿势来判断参会者是否正在使用手语“说话” 。
因为需要使用大量视频源作为输入来执行分类，所以Google设计了一个轻量级的模型，减小对CPU的消耗，以最大程度避免检测过程对通话质量的影响。当检测模型确定用户正在使用手语，它会通过虚拟音频电缆传递超声波音频，这虽然超出人类的听觉范围，但可以被视频会议软件检测到，并认为是用户正在发出声音。