法诉|互联网法诉业务数据体系建立( 二 ) 爱奇艺|优酷|上海市消保委|云

同样地，因为有部分还款，逾期等级会下跌，这就需要本地留存部分的静态数据，结合线上的动态数据去看，这就需要建立线下数据和线上数据的交互，将留存在线下的静态数据在每一段周期内需要按一定的逻辑更新到线上数据库内作为静态数据留存下来；
这时候就需要建立一定的数据交互逻辑，本地数据按什么模板上传，上传的时间点，上传的频次，什么时候能够在线上系统看到这部分静态数据，这部分逻辑就需要和管理数仓的同事们沟通明确；
在完成分案之后，会对整体业务的进展进行跟进，这部分一般就由渠道运营的同事去推动；因为各个渠道对待案件的模式可能不尽相同，数据的处理方式也更不一致，举个例子，有的渠道有自己的失联修复的手段，有的渠道通过线下送达律师函的方式，有的由于合作法院的模式不一样。
由于渠道特点和运营模式的特殊性，回传的数据同样具有特征性，这样的数据是较难按统一的维度清洗的，需要给渠道设定合理的字段转化代码。
以渠道统计的可联失联数据为例，有部分渠道的失联定义是联系方式能正常接通但无法联系到本人，还有一部分渠道将失联界定为用户的联系方式已经完全失效，所有的这些非统一性的字段都需要整理归纳为统一字段含义。
因为所有有人为参与的过程一定会出现部分数据转化存在问题的情况，最好能够通过固定的字典表去核准：

文章插图
以上的字段类型为目前部门部分业务字段名称和类型展示，因为各类型字段需要渠道、业务方和数仓方面完全对齐字段含义，这样才能减少数据工作人员在数据清洗方面的重复劳动，尽量简化工作流程和数据清洗步骤；
当然，并不是所有的数据在收集的时刻就会完全与系统数据的类型和字段名称完全一致，或者编码形式完全统一（例如编码形式为GBK/UTF-8）这就需要进行一步转化，将收集的标准化字段利用字典表转化为系统/数据库可以读取的数据统一留存，如果在这个步骤下是用数据组自己操作的话人为错误是一定无法避免的，最好是通过自动化的工具去完成数据的转化。
可以通过Python利用pandas和EXCEL、CSV的包完成自动化的处理，之后导入本地数据库通过表连接查询用代码的形式替换业务数据，完成转化之后录入系统；
不过，也不是所有的业务数据都能通过自动化工具去清洗，还有大量的业务数据空值由于不能简单的根据特征数据填充，只能寻找历史的情况去尝试补充，这个情况是无法避免的；
数据清洗之后就可以慢慢增添分析的需求，分析指标建设这个已经有太多大佬分享过见解，我就不多说了。
在分析盘点体系的建设过程中一定会出现分析体系开始落后于业务进展的情况（尤其是从0-1的业务部门，业务的进展速度一定是超出实际工作流程建立速度的）。
这种情况下需要留出一定时间去梳理数据在业务流动过程，至于实际策略的产出，仍需要依托分析结果进行深入挖掘，这个以后找时间再分享吧~
作者：Logan_RRRC；公众号： Logan的运营学习日记
本文由 @Logan_RRRC 原创发布于人人都是产品经理。未经许可，禁止转载
题图来自Unsplash，基于 CC0 协议