Twitter|讯飞输入法十二年里程碑:万物智能时代的交互新解( 三 )


从讯飞的生态布局我们可以看出 , 输入法并不是一个新命题 , 但这一产业无时无刻不在随着新兴事物变动 。 现如今 , 输入已经不单单是识别准确与否的问题 , 与人的交互性也至关重要 。 作为曾经引爆语音输入 , 并且在这一领域深耕12年之久的讯飞输入法 , 正在依托自己在其中的技术积累大踏步向万物智能时代迈进 。
二、万物智能时代 , 讯飞输入法12.0技能即将点满随着AI、5G、物联网技术的推进 , 越来越多的设备被贴上了智能标签 , 万物智能时代到来 。 新的时代背景下 , 越来越多新设备、新交互方式、新需求诞生 , 在语音输入领域大展拳脚的讯飞输入法 , 将目光从提高语音识别准确率延伸至语音交互上 。
作为AI国家队 , 科大讯飞不断精进语音识别 。 程坤透露 , 讯飞输入法的语音识别准确率已经达到98% , 然而这还是不够的 。 尤其是越来越多的智能设备出现 , 让它更懂你 , 似乎还存在一定的语言识别障碍 。
我国地域辽阔 , 语言种类丰富 , 据统计我国的方言数量有100多种 , 且各地之间的方言发音、意思都有比较大的差异 , 这在一定程度上对语音识别的准确性产生了影响 。 程坤补充道 , 有些用户会选择普通话和方言混合着说 , 但实际上更多人会选择只说普通话或者方言一种 。 其实我们发现 , 在家庭环境下更多人习惯于说自己的家乡话 , 在使用智能设备的时候我们冷不丁一句方言可能就让设备“听不懂” 。
为了跨越这一门槛 , 讯飞输入法采用了统一建模方式 , 将语音训练中的局部特征和全局特征相整合 , 也就是让这些方言“求同存异” , 程坤告诉智东西 , 如果单纯整合的话 , 普通话和方言的数据量会非常大 。 讯飞将训练参数规模调整后 , 可以加快训练过程 , 再加上语言专家的助力 , 能使其在模型层面大幅优化并加速上线 。

目前 , 讯飞输入法12.0搭载语种可控方言免切换系统 , 用户选择“方言免切换”功能后 , 就可以实现普通话与23种方言自由切换识别 。 当智能设备通过讯飞输入法的跨端输入 , 听懂各地方言 , 那意味着后一步的人机交互将更加自然、顺畅 。

除方言外 , 全球范围内不同语言间的交流互动也更为频繁 , 讯飞输入法扩充支持30多种语言的语音识别 , 程坤谈道 , 在外语语音识别领域 , 讯飞输入法的支持数量已经遥遥领先 。
我们也了解到 , 外语识别的技术难点在于 , 其更强调语音和文字的对应关系 , 并且很难找到纯正发音的语音语料 , 因此对语音识别效果会产生较大影响 。 因此 , 讯飞输入法依托于此前在语音识别的技术积累 , 采用迁移学习技术 , 使得部分小语种语料规模不大的同时也能实现比较好的识别效果 。 得益于此 , 讯飞输入法的翻译效果也获得质的提升 。
最后 , 从更为细分的使用场景来看 , 在较为狭小的汽车空间内或者高噪音干扰、远场混响的地方 , 精准识别司机和乘客等人群的语音 , 则会更加复杂 。 因此 , 讯飞输入法的通用模型已经具备在这类场景下达到较高语音识别准确性的能力 。
不过 , 程坤也谈道 , 在高噪远场场景下 , 从智能硬件方面入手效果更好 。 例如讯飞的智能硬件设备 , 都已很好地解决了上述问题 。
讯飞输入法对于核心技术的长期积累 , 使得对输入法的理解更加深刻 。 在输入法这样的产品中 , 语音交互的特质也逐渐凸显 。 程坤强调说:“我们看到语音交互的增长、看到越来越多用户的认可 , 我们相信万物智能时代 , AI将助力讯飞输入法建构更大的用户价值 。 ”