随着互联网金融时代的到来和证券业市场化进程的推进,券商业务线上化加速,行业竞争加剧,佣金费率持续下降,对券商的经纪业务带来了很大的冲击。然而随着流量边际成本的提高,券商线上获客成本剧增,竞争从获客转为存量经营,传统券商的一个优势反而显现出来,那就是线下渠道。券商拥有大量的营业部和营销人员,对比其他纯线上的金融机构有线下优势。
线下营销渠道的优势主要体现在信任度和专业度上,尤其是在客户生命周期的早期,比如开户、投资建议和资产管理等方面。一对一的营销可以让客户产生信任感,客户经理可以有充分的时间来了解客户的需求和困惑,并发挥他们的专业知识来说服客户。相比之下线上的营销手段,比如MOT和短信,则受制于时间、长度和方式,只能倾向于提供短平快的信息,难以为客户量身定制深度的投资意见和建议。
然而,目前券商却受制于一系列问题,并没有发挥出线下渠道的优势。首先是覆盖问题。目前我国的证券市场的投资者约为1.2亿人,但是行业的投资顾问仅有1.5万人,即使加上客户经理等,每个人需要服务的客户数量也要达到数千人之多,这超出了大部分投资顾问的能力。为了覆盖更多的客户,很多券商大力投资于智能投顾,试图通过固化已有的投资理念和投资算法来为更多的投资者服务。然而智能投顾却仍然存在着信任度不足、效果不好、缺乏个性化等问题,很难得到投资者的信赖。
其次是效率问题。线下的投资顾问普遍存在盲目营销的情况,营销效率较低。很多投资顾问只是根据自己的经验来选择营销对象,却因为人均客户数量大、对客户了解少等原因,选择营销对象有相当的随意性,最后造成营销效果不佳。投资顾问浪费大量的精力来与转化意愿不强或潜在价值不高的营销对象沟通,然而接通率/有效沟通率等却往往不高,最后的转化效果更是难以令人满意(以用户转开户场景为例,电销接通率30%左右,有效沟通率不足20%,转化率不足1%)。
那么如何才能解决这些问题呢?办法就是更加深入的了解客户,不仅是他们的基础属性、投资属性,更要预测他们的偏好和意愿。
这样才能更好地服务于他们,并提高他们的忠诚度,给企业带来更多的收入。大数据时代的到来恰恰为我们深入了解客户带来了契机。随着券商的服务日益走向线上化和移动化,我们有更多的途径来了解客户。通过在手机的安装包内植入代码(SDK),企业可以收集到客户大量的交互数据。通过这些交互数据,我们可以深入地了解客户的行为特点和偏好。TalkingData还可以在企业获得用户授权的基础上,通过SDK来收集用户的应用偏好。在这些数据的基础上,还可以通过机器学习模型来推断客户的其他属性,比如客户的年龄、性别等等。
通过这些数据,我们可以得到一些以往并不了解的有用信息。比如一个客户长期出现在金融圈(比如陆家嘴),那么,这个客户的金融属性可能较强,更有可能开户或接受更多的金融服务。再比如一个客户晚上居住的区域是房价很高的小区,那么这个客户的潜在价值就可能较高。但是,如果只是单纯的条件筛选,相比于大数据建模,可以提供的名单却往往不足,而且转化效果也不佳。
为了更加充分地利用各种交互数据和用户的交易和资产数据,我们使用了机器学习模型来预测客户的属性。那么在线下营销的场景里,什么样的属性最为重要呢? 我认为是转化意愿和转化价值。这两个属性相乘,构成了客户的潜在价值。我们可以通过客户的这两个属性来挑选潜在价值最高的客户,提供给客户经理。这样,客户经理可以在庞大的可营销人群中,挑选出潜在价值最高的人群进行营销,这样避免了对大量潜在价值不高、转化意愿不强的客户进行的无效营销,解决了覆盖度的问题。
同时,客户经理可以通过模型来选出有不同意愿的客户(开户意愿强的用户,回流意愿较强的流失客户,比如理财型客户、股票客户等等),并有针对性的设计营销话术。实践结果表明,这些方法可以非常明显的提高营销的转化率,极大地提高了客户经理营销的效率。以用户转开户短名单模型为例,模型选出的用户的开户转化率在10% 左右,远远高于随机挑选出的名单1%左右的转化率,也高于模型选出但是没有拨打的名单的转化率(2%左右)。
机器学习模型不仅可以在很大程度上解决目前线下营销出现的问题,而且它还具有普适性,可以应用到客户生命周期的多个营销场景。从下载App开始,到注册手机号,到开户,到入金,到购买股票/理财产品,到流失,到回流,每个场景下,我们都有相应的模型可以应用,为营销人员提供大量的TDID。我们还可以将这些模型的流程自动化并落地到系统中,并对接到公司的营销平台进行分发,节省了大量的人力物力。
那么我们是如何建立这些模型,又是如何优化它们,并最终落地到系统中的呢?
- 首先是确定模型目标。
这是非常关键的一步,对模型最终的业务效果有非常重要的影响。模型目标取决于多个因素。首先是要确定业务目标。以用户转客户模型来说,就是要提高注册手机号的用户最终开户的比例。然而,业务目标并不完全等于模型目标。以用户转开户模型为例:很多用户进入开户流程后,却因为各种原因终止了开户(比如身份证头像问题、视频验证问题等等)。这些用户已经表达了非常强烈的开户意愿,然而却被客观因素阻止了开户。因为我们的模型主要是用于预测客户的意愿,所以我们把这些用户也作为模型的正样本。除此之外我们还要考虑很多其他业务上的问题。还是以用户转客户模型来说,存在很多在注册手机号当天就开户的用户。这些用户很多在App基本没有点击行为。根据我们对业务的了解,这些手机号中有很大一部分来自于线下渠道,是通过客户经理的推荐才开户的,甚至就是由客户经理操作开户的。所以,不能从这些手机号的行为数据来预测客户的开户倾向,所以从正样本中予以删除。
- 确定模型目标还要确定好目标的口径。
客户在一段时间内的行为在时间的维度上有影响的范围。比如客户在昨天点击了很多股票的行情,还看了理财产品的推荐页面。一年后,这个客户购买了理财产品。然而,很难说客户昨天的行为影响了一年之后的购买行为。在讨论之后,我们把模型的目标口径定为在一周内的转化。于是我们把业务目标翻译成为可以从数据库中提取的模型目标。
- 其次是确定模型的数据来源和收集范围。
对于不同的业务场景,预测的数据来源有很大的差异。比如对于用户转开户的场景,因为用户没有开户,所以没有任何交易和资产类的数据。所以所需的数据很大程度上来源于用户在设备上的交互数据。对于流失预警模型,数据则主要来源于用户在近期的交易和资产数据,以及近期的交互数据。而不同时间范围的数据重要性也有所不同,越近期的数据权重越高。对于营销欺诈模型,则渠道和设备的数据显得更加重要,因为营销欺诈往往在渠道、设备属性上有集中效应(比如喜欢使用老旧和廉价设备,某些渠道营销欺诈近期的比例较高)。对于预测客户的价值属性(潜在高价值客户模型),则客户的外部数据显得更加重要。因为我们看到客户在系统里的资产,往往只是客户资产总量的一小部分,客户在其他金融机构存放的资产是我们需要挖掘的目标。这方面TalkingData的数据可以给予很大的帮助,我们可以通过这些数据来预测客户的价值属性。
- 然后则是数据的加工和处理。
目前,很多券商的数据整合度仍然不够,重要的数据还分布在各个子系统内,需要进行整合和加工。交易和资产数据来自于柜台交易系统,一般较为完备,客户的交互数据则不然。这些数据来自于STK包上传的日志,需要通过解析脚本来批量结构化。我们要对这些数据进行清理、加工、整合,最后开发为我们可以使用的结构化数据。最后我们还要利用TalkingData 的ID Mapping 技术对这些数据进行打通,使他们能够通过TDID关联起来,最后成为我们可以利用的去识别化的数据来源。
- 完成数据整合之后是对数据的采集和处理。
我们使用结构化的计算机语言(SQL/Hive SQL)对数据进行压缩,提取有用的汇总数据,再通过表与表之间的关联将这些数据汇总到一张或数张宽表内,作为模型的原始数据。
- 采集完数据后,我们还需要对数据进行校验和分析。
我们需要检查各个字段的饱和度和异常值,分析数据的质量,并对出现的问题进行分析,找出原因。分析这些问题是否对模型有影响,以及如何处理脏数据。然后,我们还需要根据业务逻辑来确定对缺失数据填补的逻辑,以及对于异常数据的处理方法。特别需要注意的问题是,要防止因果混淆的问题,要将用于预测的数据和模型目标变量完全的隔离开来,以免造成因果不分的情况。
- 之后则是将数据加工为最终模型使用的特征。
这其中很大一部分工作可以在数据采集和处理过程中完成,其他的工作则在数据校验之后完成。需要对数值型的变量进行计算,生成加工后的特征值,可以计算最大值、最小值、平均值、变化率等等等,对于类别数据,则采用各种编码方法进行处理。类别较少的数据可以采用独热编码,类别多的数据可以考虑其他的各种编码方式。还可以用这个分类特征去关联其他的数据,并加工为特征。
现在我们有了大量的特征和目标变量,然而我们并不能直接把这些数据输入模型,需要对这些特征进行筛选和处理。缺失率特别高的特征需要给予删除,特征出现共线性则需要选择去除部分的特征。我们还可以使用一些模型自带的特征筛选器对特征进行筛选(比如随机森林自带的特征筛选器)。我们还需要根据最后运行的模型确定是否需要对特征进行标准化。对于树类的模型(随机森林 C4.5等),标准化往往不是必须的,对于其他的很多模型,为了加快模型损失函数的收敛速度,我们需要对特征进行标准化。有各种标准化的手段可供选择。
在最终运行模型之前,我们还需要通过对业务需求的判断确定模型的评估标准。常见的模型评估标准有查全率(recall)、准确率(precision)、F1、AUC等。比如对于营销欺诈模型,模型衡量标准主要是 KS值,业务部门的人员还对模型的准确率提出了特别的需求。对于各种转化名单,则需要在准确率和查全率之间进行权衡,往往通过一些综合性指标(AUC、F1)等进行衡量。我们还可以通过ROC曲线来分析模型在不同阈值上的表现情况。然而,最重要的衡量标准是模型在实际转化中的表现。
还有一个需要考虑的问题是不均衡样本的问题。在很多转化场景下,正样本的数量往往远小于负样本的数量。比如在流失回流的模型中,回流的正样本只占样本总量的0.3%。在这种情形下,模型的效果往往会受到严重的影响。我们于是采用了一系列采样的方法来加以应对,比如欠采样和过采样(如图)。
确定好模型的评估标准之后,则需要选用合适的机器学习算法。机器学习算法的原理比较常用的机器学习模型是基于决策树的模型,回归类模型还有神经网络类模型。树类的模型主要有决策树、C4.5以及结合集成学习方法生成的RF模型和XGBoost 模型等。回归类模型主要是由线性回归、逻辑回归、岭回归等一系列模型。我们对各个模型在测试集上的表现进行了评估,结果显示,XGBoost和RF模型是表现最好的模型之一,这也是我们最后选择落地的模型。
XGBoost模型和RF模型的原理图:
之后则是模型训练和模型优化。我们对数据进行分割,将数据分割成测试集、预测集和验证集。我们在测试集采用交叉检验的手段来防止过拟合的情况。我们还采用了正则化的手段,在损失函数中加入正则项以进一步防止过拟合。我们还使用网格搜索、随机搜索等方法对模型的参数进行调优,最终得到相对较优的模型。
然而,只在测试集表现好的模型是不够的,我们还需要在实际的业务中判断模型的效果,最后根据业务人员的反馈来对模型进行进一步迭代优化。比如在用户转开户的TDID名单模型中,营销人员反映接通率较低,于是我们通过黑名单对数据进行初筛,这样有效的提高了客户的接通率。同时,我们还对TDID的匹配方式进行了优化,最后的名单的转化效果也有了大幅度的提升。
最后我们还需要将模型落地,将模型的所有过程自动化,并写成计划任务定期执行。
我们与营销平台开发人员和数据库开发人员进行合作,对接数据源,形成数据流,最终使我们的模型结果直接展现在营销平台上,以供分支营销人员使用。最后我们还规范了模型反馈结果数据,把拨测以及实际转化的情况的跟踪代码落地为报表,以便持续自动地跟踪模型的表现,并根据反馈做进一步的优化。
这样,通过利用大数据建模,我们可以有效应对目前线下营销所遇到的困难,充分发挥线下营销的潜能,从而进一步完善券商的数据运营体系。线上营销专注于推送和千人千面,倾向于提供简短、精要,及时的信息,而线下渠道则是专注于根据客户的意愿、偏好和实际/潜在价值提供更加专业的服务。而两者,都由数据驱动,为客户提供更加精准,更加个性化,也更加人性的服务。