文本|下一代面向知识的 BI 到底有何不同，从 nextionBI 数据解读能力中一探究竟

文章插图

文章插图

2022年2月25日，nextionBI举办线上发布会，这是下一代BI首次正式与大众见面。nextionBI的定位是数据融合的增强分析型敏捷BI平台，面向知识设计，关注知识的积累、发现与应用。这一定位里的核心是增强分析，但是这一概念与BI怎么结合，在具体场景中如何应用，这是发布会上很多观众关心的问题。因此，数睿数据AI科学家车文彬博士，借此机会从发布会上介绍一个特性“数据解读”切入，为大家详细介绍nextionBI的增强分析的实现过程与最终效果。
为什么要做数据解读？
数字化、大数据、数据分析这些概念大家已不再陌生，不管是大企业还是小公司，都明白基于量化的业务数据进行分析，得到的结果有助于快速厘清业务现状，发现异常数据及时识别经营风险。懂这个道理的人很多，但是真正完成这个目标并不是那么简单。对于一些对数据不敏感的人来说，看数据是个头疼的事情。自己看不懂，交给数据分析师看，分析师给出的分析报告，又有很多专业名词，虽然是中国话，但还是听不懂。同时对于专业数据分析师来说，从零开始看一张“大宽表”也是一件头疼的事情，几百个维度，千万条数据，老板要求数据拿到之后立刻马上就要看结果，分析师也只能简单拉个折线图、饼图，就开始大谈特谈。这样也许一次两次能忽悠得了老板，但是专业的数据分析师都知道这种方式其实很难产出对于业务真正有价值的信息。严谨的数据分析需要搜集大量数据，尝试多种统计方法和算法模型，才仅仅有可能发现一些隐性联系。这种情况下如果能够有人提前看一下数据给出一个基础判断，对于分析师开展深度分析会有很大帮助。但在绝大多数情况下，这个基础分析也只能分析师自己来做，属于低效率的重复劳动。如果能让数据能够主动说“人话”，像为钢铁侠服务的“贾维斯”那样，让管理人员能够快速听到数据反映的基本趋势和潜在风险，让专业人员能够对数据全貌快速做到心中有数，就可以很大程度上提高数据分析工作的效率。数据解读功能的初衷就是帮助用户快速地了解数据，发现数据表层以及潜在的信息，从而可以更快地进行分析以及利用数据价值。
如何让数据说“人话”？
nextionBI利用统计学、机器学习对数据特征进行分析建模以及自然语言处理，从而生成通俗易懂的数据解读。本次发布的数据解读能力包括三个功能模块：表格描述、图表描述以及单点解释。接下来分别详细介绍每个模块的技术特点。表格描述功能会对用户导入的数据表格进行内容提取，对表格的标题以及字段进行关键词提取，关键词提取可以在一定程度上精简文本内容让人们便捷地浏览和获取信息。利用深度学习算法对提取的关键词进行分类，可以判定表格数据所属的行业领域，分类准确率达到95%以上。目前我们收集的领域包括（医药、汽车、财经、食物、法律）等，后续也会根据具体业务场景不断地丰富语料，支持更多领域的识别，针对不同领域生成不同的数据解读。对数据进行字段类型的判别，在数据显性层面：对数据进行值的统计，分类类别统计，空值以及异常值检测，时间趋势、变化趋势以及同比环比的计算；在数据隐性层面挖掘数据潜在的联系：1）利用皮尔逊系数发现数据之间的相关性，发现两个变量之间的线性相关程度，虽然不能反映因果关系，但用户可以根据自己的行业知识进行判断。例如销量与利润。2）利用FP-Growth算法进行关联分析，在数据复杂度以及计算效率上相较于Apriori算法都有不错的提升。关联分析描述了一个事物中某些属性同时出现的规律和模式。如“67%的顾客在购买啤酒的同时也会购买尿布”，因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。结合上述分析的特征，利用深度学习主题生成模型生成连贯性解释性强的数据解读，帮助用户做出决策，更好的利用数据价值。