“我让 AI 来处理我 24 小时的音频信息——这会是未来吗？” 整理|郑丽媛出品|CSDN（ID：CS

文章图片
整理|郑丽媛出品|CSDN（ID：CSDNnews）这几年AI发展和进化的速度，几乎可以用三个字来形容：杀疯了。
AI下棋、AI编程、AI作画、AI写小说、AI预测蛋白质结构……当AI逐渐融入我们的生活，你是否设想过，我们的未来会如何发展？会像许多科幻电影和赛博朋克类小说中说的那样，让AI管理和安排我们的日常？
正如未来学家尼葛洛庞帝所说， “预测未来的最好方法，就是去创造未来” ，最近国外一位小哥RoberDam便提前“体验”了一把他眼中的未来：“我24小时都用音频记录自己，然后用AI来处理这些信息——这会是未来吗？”

文章图片
恰好出现的Whisper
说来有些好笑， RoberDam会对这个测试提起兴趣的原因之一，是1TB内存手机的出现：“迄今为止已经有多种型号的智能手机都具有1TB的内存，这能干什么呢？能全天候地记录自己的音频！”
恰好今年9月底， OpenAI又发布了一个名为Whisper的语言AI模型，并声称它在英语语音识别方面的准确性已接近人类水平——RoberDam灵光一闪，齐活儿！
“当然，这只是一个预测未来的实验，就是想看看什么可能、什么不可能。 ”
首先， RoberDam买了几个麦克风带在身上，整天开着，记录他一天说的话。计划当一天结束后，他就把这些音频交由OpenAI的Whisper处理，转化为文本文件，从中提取信息。
不过，毕竟每天说的话太多， RoberDam认为还是有必要画个重点的。因此，他创建了一个初级的“数字助理”程序，将一些重要信息通过关键词“Robert”和“EndRobert”主动让其捕捉：“每次我说出‘Robert’这个词时，表明我之后所说的一切都是我对助手的命令，直到我再次说‘EndRobert’ ，意味着命令结束。 ”
举两个例子：
想让“数字助理”记录当天的体重， RoberDam只需大声说：“RobertWEIGHT60.1endRobert 。 ”

文章图片
想让“数字助理”记录当天的睡眠时间， RoberDam也只需说：“RobertSLEEP7hours14minutesendRobert 。 ”

文章图片
等一天结束， Whisper将当天的音频处理并转换为文本后， “数字助理”程序就会负责搜索命令的文本并提取关键词之间的所有内容。
足以确保100%的隐私，还等同于“模拟API”
说到这里，可能有些人会觉得，何必如此麻烦搞个“数字助理” ，直接用Google的“OKGOOGLE”和苹果的“Siri”不香吗？
以“OKGOOGLE”为例， RoberDam总结了三点局限：
命令受限：不够了解“OKGoogle”可以交互式地做什么，对它的一些命令只会作为Google搜索返回。
不够隐私：你对“OKGoogle”说的命令和完整音频文件都会一起保存在Google中，搜索历史记录就能查到。你不仅能听到自己的声音，旁边人的对话可能也会被录进去。
同步处理：当你向Google发送命令时，通常会有几秒的延迟，可能用于搜索也可能在辨别你的命令，而这会分散你的注意力，让你关注它的反馈，有时候这比你直接手动操作还慢。
基于这三点， RoberDam自己创建的“数字助理”就很好地解决了这些问题：
命令受限：命令由RoberDam自己决定，他知道“数字助理”能处理什么。
不够隐私：所有音频只有RoberDam一人拥有，确保100%隐私。