“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”

“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”
文章图片
整理|郑丽媛出品|CSDN(ID:CSDNnews)这几年AI发展和进化的速度 , 几乎可以用三个字来形容:杀疯了 。
AI下棋、AI编程、AI作画、AI写小说、AI预测蛋白质结构……当AI逐渐融入我们的生活 , 你是否设想过 , 我们的未来会如何发展?会像许多科幻电影和赛博朋克类小说中说的那样 , 让AI管理和安排我们的日常?
正如未来学家尼葛洛庞帝所说 , “预测未来的最好方法 , 就是去创造未来” , 最近国外一位小哥RoberDam便提前“体验”了一把他眼中的未来:“我24小时都用音频记录自己 , 然后用AI来处理这些信息——这会是未来吗?”
“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”
文章图片
恰好出现的Whisper
说来有些好笑 , RoberDam会对这个测试提起兴趣的原因之一 , 是1TB内存手机的出现:“迄今为止已经有多种型号的智能手机都具有1TB的内存 , 这能干什么呢?能全天候地记录自己的音频!”
恰好今年9月底 , OpenAI又发布了一个名为Whisper的语言AI模型 , 并声称它在英语语音识别方面的准确性已接近人类水平——RoberDam灵光一闪 , 齐活儿!
“当然 , 这只是一个预测未来的实验 , 就是想看看什么可能、什么不可能 。 ”
首先 , RoberDam买了几个麦克风带在身上 , 整天开着 , 记录他一天说的话 。 计划当一天结束后 , 他就把这些音频交由OpenAI的Whisper处理 , 转化为文本文件 , 从中提取信息 。
不过 , 毕竟每天说的话太多 , RoberDam认为还是有必要画个重点的 。 因此 , 他创建了一个初级的“数字助理”程序 , 将一些重要信息通过关键词“Robert”和“EndRobert”主动让其捕捉:“每次我说出‘Robert’这个词时 , 表明我之后所说的一切都是我对助手的命令 , 直到我再次说‘EndRobert’ , 意味着命令结束 。 ”
举两个例子:
想让“数字助理”记录当天的体重 , RoberDam只需大声说:“RobertWEIGHT60.1endRobert 。 ”
“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”
文章图片
想让“数字助理”记录当天的睡眠时间 , RoberDam也只需说:“RobertSLEEP7hours14minutesendRobert 。 ”
“我让 AI 来处理我 24 小时的音频信息——这会是未来吗?”
文章图片
等一天结束 , Whisper将当天的音频处理并转换为文本后 , “数字助理”程序就会负责搜索命令的文本并提取关键词之间的所有内容 。
足以确保100%的隐私 , 还等同于“模拟API”
说到这里 , 可能有些人会觉得 , 何必如此麻烦搞个“数字助理” , 直接用Google的“OKGOOGLE”和苹果的“Siri”不香吗?
以“OKGOOGLE”为例 , RoberDam总结了三点局限:
命令受限:不够了解“OKGoogle”可以交互式地做什么 , 对它的一些命令只会作为Google搜索返回 。
不够隐私:你对“OKGoogle”说的命令和完整音频文件都会一起保存在Google中 , 搜索历史记录就能查到 。 你不仅能听到自己的声音 , 旁边人的对话可能也会被录进去 。
同步处理:当你向Google发送命令时 , 通常会有几秒的延迟 , 可能用于搜索也可能在辨别你的命令 , 而这会分散你的注意力 , 让你关注它的反馈 , 有时候这比你直接手动操作还慢 。
基于这三点 , RoberDam自己创建的“数字助理”就很好地解决了这些问题:
命令受限:命令由RoberDam自己决定 , 他知道“数字助理”能处理什么 。
不够隐私:所有音频只有RoberDam一人拥有 , 确保100%隐私 。