|
|
|
|
移动端

如何用好大数据?51信用卡刘建辉揭秘大数据应用产品进阶之道

当转化率降低时,人们还可以通过大数据进行分析,制定更有效的运营策略。首先绘制出整个产品的用户地图,看看新版是否满足用户需求;然后利用埋点数据总结出产品路径的漏斗转化率,通过转化率进行分析找到问题的源头,是产品设计问题导致用户流失,还是前端有bug导致客户信息无法保存,抑或是H5页面出现了问题。

作者:周雪来源:51CTO|2018-06-20 14:51

【新品产上线啦】51CTO播客,随时随地,碎片化学习

【51CTO.com原创稿件】2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开。此次峰会围绕人工智能、大数据、物联网、区块链等12大核心热点,汇聚海内外60位一线专家,是一场高端的技术盛宴,也是顶级IT技术人才学习和人脉拓展不容错过的平台。

在19日下午“高并发与实时处理”分会场,51信用卡大数据架构师刘建辉带来了《大数据应用产品进阶之道》的主题演讲,针对常规大数据架构、大数据用户需求、数据产品建设等大众关心的话题展开了阐述。会后,51CTO记者根据刘建辉在WOT2018全球软件与运维技术峰会的演讲内容进行了整理。

刘建辉,WOT

常见的大数据架构

刘建辉指出,其实每一家公司的大数据架构都差不多,基本上分为采集、存储、调度、计算、数据展示这五个层次。

刘建辉,WOT

想让大数据为己所用,就必须先了解大数据到底是什么。有人认为大数据是参与底层的平台开发,有人认为就是参与业务开发的工具,刘建辉曾经认为大数据就是写几行架构代码,无非是基于Spark(专为大规模数据处理而设计的快速通用的计算引擎)写代码,还是Flink(针对流数据和批数据的分布式处理引擎)写代码,似乎没有什么本质区别。事实证明这些观点其实都不全面,想了解大数据是什么,可以通过大数据“发现问题”和“解决问题”来定义。

在公司内部,与大数据密切相关的人员有三类人员,一是数据分析人员(数据仓库、BI),二是算法策略人员,三是运营人员、增长团队、产品开发人员、设计人员。尤其是在数字化转型过程中的企业产品开发人员,可能在利用大数据方面的经验欠缺,多是基于传统模式来进行产品设计,大数据对他们的帮助非常大,完全可以从数据的角度帮助产品人员做决策,效果更好。

那么人们对大数据分析的需求是什么呢?刘建辉归纳为三点,一是即时查询,技术人员想了解某个结果,只要将其写入MySQL(关系型数据库管理系统),立刻就能看到结果,得到即刻满足。二是任务调度,技术人员希望每天在固定时间节点能够产出一个数据报表。三是报表产出,快速可靠。

了解了大数据的实际需求之后,该如何选择适合自己的大数据产品及解决方案呢?刘建辉给出三点建议:首先牢记一点,可执行的方案胜过明天的完美方案;其次产品要始终满足用户业务场景需求,最后一点,确保产品的易用、稳定、可靠。

原来大数据算法有这么多门道!

在演讲现场,刘建辉还分享了51信用卡在大数据实践中遇到的问题,重点讲解了大数据的算法策略。

他表示,51信用卡公司缺少一个统一的模型训练和模型发布平台。在这方面,大型公司做的比较好,由于他们长期的积累,算法和工程的配合程度已经相对完善。而对中小型公司而言,每位技术人员用的算法模型五花八门,评估指标也“百花齐放”。这样的做法其实有很大的弊端,对于任何一家公司而言,其业务的评估指标应该是统一的,应当建立一套统一的模型的训练和模型发布平台。

线上变量和离线变量不一致也是一个问题。目前大部分的模型训练都是离线计算。计算完成了之后,再把离线变量转成在线变量,通过在线的方式实时地调用在线的模型。在这个过程中,有的技术人员会忽略一点,那就是算法也是有有效性的,可能当时一个非常好的算法,一个月后就失效了。原因就在于业务发生了变化,核心在于当前端改版后,产品目标人群面貌发生了变化,之前所有线上变量在一个月前完全没有问题,但下个月就失效了。这个现象对于金融公司而言会造成很可怕的损失。

另外一个问题就是模型上线后的监控告警问题。技术团队希望能够提前知道模型变量与稳定性的全部情况,可以提前评估算法模型对现有业务的支持情况,而不是等到两个月以后,发现已经造成损失,才想到原来是模型变量失效了。

刘建辉,WOT

刘建辉还给出了一个比较合理的算法开发流程,包括五步骤:从特征挖掘到模型训练,再到实时变量开发、模型上线,最后进行模型监控评估。在整个过程中,51信用卡遇到了各种挑战,他作为“过来人”分享了他的经验:

第一点,在线变量和离线变量依赖的数据源必须一致。有的算法人员表示自己挖掘到一些新特征,可以把反欺诈的命中率提升好几个百分点,但实际上线效果并不好,原因就在于离线依赖的数据源跟在线依赖的数据源完全不一样。

第二点,在线变量尽可能也采用SQL的方式,避免逻辑错误。刘建辉表示,在数据量不是特别大的情况下,适当的成本开销比可能引起的问题、带来的损失更值得,所以他建议大家通过SQL的方式采取在线和离线一样的解决方式去解决问题。

第三点,监控支持从Hive数据源获取自定义指标。在业务运营过程中,运营团队会做运营推广,产品会重新改版,最终业务指标出现问题并不一定是由算法带来的。但算法团队要解决的问题就是一定要实时地知道业务发生了哪些变化,把监控指标做的更完备,尽早地去进行分析。

第四点,模型评估函数、监控指标要统一。

如何利用大数据去引导业务?

演讲最后,刘建辉还重点谈到了大数据如何帮助产品做运营。

对于大多数企业而言,运营流程比较类似,都是由获客、注册、转化、收入、传播这几个步骤组成。那该如何提升渠道的转化率呢?有两种解决方案,一种是通过产品的设计,增加核心功能。第二个是做合适的运营活动,例如新手注册送红包等。

当转化率降低时,人们还可以通过大数据进行分析,制定更有效的运营策略。首先绘制出整个产品的用户地图,看看新版是否满足用户需求;然后利用埋点数据总结出产品路径的漏斗转化率,通过转化率进行分析找到问题的源头,是产品设计问题导致用户流失,还是前端有bug导致客户信息无法保存,抑或是H5页面出现了问题。当分析结果出来之后,可以更有针对性地进行精准人群运营活动推广。

以上内容是51CTO记者根据51信用卡大数据架构师刘建辉在WOT2018全球软件与运维技术峰会的采访内容整理,更多关于WOT的内容请关注51cto.com。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

【责任编辑:周雪 TEL:(010)68476606】


点赞 0
分享:
大家都在看
猜你喜欢

热门职位+更多

读 书 +更多

C#和.NET核心技术

本书重点讲解如何用实用的代码来解决具体的实际问题。本书的内容覆盖面很广,从新的C#范型到Web服务,从反射到安全等都有涉及。系统地介绍...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊