碎片化|「小样本+AutoML」,改变算法生产的「核武器」?

数据、算法、算力,被称为AI的三驾马车。
其中,数据对于算法模型的效果至关重要:以深度学习为核心的AI,为了避免发生过拟合或欠拟合的情况,需要使用大量数据来进行模型训练,从而使模型达到更好的拟合优度,这对于解决场景问题无疑大有裨益。
不过,通过大量数据来训练算法,从理论上看无懈可击,但当AI走向落地场景,就不那么容易了。
以数据问题为例:
对于碎片化场景,数据成了老大难。
1、很多场景不具备数据采集的条件,或者说采集数据成本太高;
2、数据是否有效,无效的数据除了百无一用之外,还会形成噪声干扰,处理起来也费时;
3、一些场景数据量不够大,很难做到大样本。
没有足够量的数据,就难以训练出好的算法模型,解决场景问题也就无从谈起。
这实际上是产业数字化转型面临的重大难题之一:以人工智能为核心的数字化转型,在实际场景落地时,由于技术使用的先决条件存在短板,很难释放对产业转型的推力。
"从成本收益上看,在一些场景下,AI形如鸡肋,无法解决实际问题,更无法降本增效。"
中科智云CEO兼首席科学家魏宏峰告诉AI掘金志,数字化转型趋势下,隔行如隔山,整个市场需求都是碎片化的,这对AI而言提出了两大挑战:要么做场景定制化;要么改变现在的算法生产模式。
但这两种方式都逃不开前面提到的数据问题。
对于一些封闭场景,比如园区物流,通过场景定制化方案可以实现全自动化流程,然而这并不适用于碎片化的开放场景;此外,定制化成本过高,单独开发算法则会面对投入产出比严重不匹配的问题。
因而,比较合适的解决方法,是改变现有的算法生产模式。
这也是小样本学习(FSL)和AutoML(自动机器学习)火热的根本原因。
FSL与AutoML小样本学习属于机器学习下的一个分支,诞生于碎片化场景很难获取足够有效的数据这一背景下,旨在通过较少的数据量或样本,来训练算法模型。
与传统机器学习相比,小样本学习的优势在于,不需要大量数据支撑,但这同样也带来问题:数据量太少导致经验风险最小化不可靠。
所谓经验风险,是指模型关于训练样本集的平均损失。通常情况下,样本容量足够大(传统机器学习),经验风险最小化能保证有很好的学习效果;反之,样本量太小,经验风险最小化学习的效果就难以保证。
举个例子:
假设以小孩子为算法模型,汉字为样本数据,目标任务是认识汉字"我"。当小孩子抄写"我"的次数足够多,那么小孩子的学习效果就更好;反之,如果只抄写了数次,那么小孩子可能认识"我",也可能不认识,经验风险是不可靠的。(案例并不严谨,仅供参考)
目前行业内已经开始通过数据增强、模型约束空间、搜索算法等方式来解决小样本学习存在的问题。
"如果模型能力足够强,对样本的需求并不一定要非常大。"魏宏峰表示,一个好的模型,可通过小样本学习来形成自我训练,从而提高算法精度与适应性。
而建立好的算法模型,与AutoML(自动机器学习)密切相关。
在传统AI算法开发流程中,从业务和问题定义,到数据采集和标注、存储管理、数据分析和可视化,再到模型结构设计、优化......最后到应用开发,需要经历大概十三个环节,其时间成本、开发成本处于高位。
对于没有算法开发能力,但有算法应用需求的企业而言,这个流程非常"复杂",且成本较高,难以承受。
因而只专注于算法选取和神经网络架构搜索的传统AutoML是无法满足现实需求的,涵盖算法研发全流程的AutoML应运而生,从特征工程、模型构建、超参选择,优化方法四方面实现自动化,其优势在于:既减少了算法生产成本,又提高效率,并且降低了算法生产门槛。