大数据画像如何评估

导读

本文主要包括两部分内容，第一部分会对零零散散进行了两个多月的用户画像评测做个简要回顾和总结，第二部分会对测试中用到的python大数据处理神器pandas做个整体介绍。

Part1 用户画像评测回顾与总结

1、为什么做用户画像评测？

将时钟拨回到2018年初，大家迫切想打破以往资讯推荐无章可循的局面，而今日的推荐算法也似乎演成了神话，用户意图这个词在WiFi管家团队被一再提及，继而AI推荐布局被推到了前台。

用户意图识别的优劣取决于对用户实时需求的了解程度，此事古来难。AI团队率先做的尝试是在一些特定场景下猜测用户意图，进行意图相关推荐，如住酒店用户，地铁上用户等，这是算法可以做的事情，那测试在这个过程中可以做些什么呢？算法验证相对滞后，有什么可以先行的呢？用户意图识别首要识别对用户场景，如果场景错了，后面的工作就无法关联起来。如，住酒店，是个动态场景，尝试进一步拆分成可衡量的静态场景，如，什么人（性别，工作，偏好等）？什么时间（出行时间）住什么酒店（酒店位置，级别等）？这些我们是有后套标签系统的，经过了解这些标签系统已经有些尝试应用，但是标签本身准确性却无从评估，因此，用户标签准确性评测就在懵懂中筹备开始了。

2、用户画像准确性怎么做？

感谢先行者浏览器团队，提供了最初的评测思路，他们的考虑很周全。而我在具体的实践过程中，根据业务的实际情况制定了最终的评测方案（下图），从第一轮标签提取开始，就暴露出各种细节问题，好在都一一解决了。

简单列下可供后来者借鉴的几个注意项：

（1）问卷设计的原则：每一个问卷题目与后台标签对应关系提前考虑好，有的一对一有的一对多。问卷的每一个选项要与对应标签的取值对应好关系，这会大大简化后期脚本处理工作。

（2）问卷下发回收：最初下发了label数量>9的用户，用>8的用户补了1k，结果实际回收率不到50%，于是追加了>8的全量用户，总共4k多个，实际回收依然不足1k，而此间耗费了将近2周的时间。

（3）关键字选取：整个过程关键字是imei，但下发问卷时，众测平台关键字却是qq，这就在数据处理上又需要多一层转换处理了。

（4）标签系统提数：标签系统的数据是周期性更新，更新频率高，建议问卷回收后进行二次提数，尽可能减少时间差造成的数据不一致。

（5）脚本处理：因为涉及的数据量比较大，涉及到比较多文件的处理，强烈建议装两个库，jupyter notebook（交互式笔记本，可及时编写和调试代码，很好用），还有一个大数据处理的pandas，对于excel的操作实在便利太多。

（6）经纬度处理：经纬度数据没法下发问卷，因此问卷题目设计成问具体地址，大楼，小区等。数据转换接入了地图的逆地址解析接口，然后再对比具体位置信息，这里的对比也是纠结了1天时间，最终精确到2个中文字符的维度。

3、用户画像准确性怎么分析？

至问卷回收完毕，实际工作才完成一半，接下来就是远超预估的复杂繁琐的数据处理及分析过程了。我想用下面这张图来描述整个分析过程。

整个分析包括四部分：

（1）黄框：活跃用户数据处理。

为什么要做？
活跃用户主要下发问卷前用，这里为什么还需要做分析呢？这里的分析工作是可以省掉的，方案最后会说，先来看这里的目标是什么。因为问卷没有收集imei数据，而lable标签是根据imei进行统计的，因此这里需要多做一层merge处理，以使问卷可以补足缺失的imei信息。
是否可优化？是否存在风险？
细心的读者可能已经发现，这里存在一个隐患！可能导致样本数量减少，因为用户的qq和imei其实不是一一对应的，可能存在一对一或一对多情况，如果下发imei用户更换qq完成了问卷，这里的merge就会导致部分样本数据反查不到imei数据从而丢失样本。庆幸的是本次测试丢失样本数不到10个，否则我可能要从头再来了。
如何规避？
在用户问卷设计中让用户主动反馈imei信息。前期设计没有考虑清楚key值的设计造成了这个隐患，同时还增加了分析的工作量。

（2）蓝框：系统lable数据处理。

为什么要做？
细心的读者会发现，系统lable在最初已经提取了，用于做单个用户lable数量的过滤分析，这里还可以直接用原来的数据么？
答案是非常不建议！因为后台数据会周期性更新，最初提取的数据已经不能表征问卷用户当前的上报数据了。所以lable数据重新提取这一步不能省。

（3）红框：问卷数据处理。

为什么要做？
问卷设计的原则是便于用户理解选择，与代码数据上报实现差异很大，所以这里的数据解析是必须的，也是结果分析最核心的部分。
做了什么？
这里我花费了大量的时间写脚本、调试，这里大量采用pandas，感谢它大大简化了我的代码量。为了便于大家熟悉了解pandas的用法，我这里会截取部分代码来看。

Action1：drop冗余数据

经验：感谢pandas，定义droplist，通过dataframe的drop方法，两行代码：

Action2：按lableid重新定义列名

Action3：常规各列数据处理（举个栗子）

（4）绿框：diff结果分析

做了什么？
在脚本处理上经纬度会更复杂，但思路大同小异，便于解说，这里以常规数据举例。

关键点1：利用dataframe将一行取出来存成array：

关键点2：定义diffresult文件列名：

关键点3：遍历每一列数据，过滤掉不存在lable：

关键点4：循环遍历比较系统数据和用户数据：

在本part最后，再总结下不足，主要有如下三方面：

（1）样本覆盖全面性不够：覆盖具有局限性，不能代表所有的用户；

（2）无法全自动化监控：问卷设计及提数暂时无法自动化，也就仅限于一次摸底；

（3）样本数量不足：单个用户的标签不全，导致标签整体数量偏少。

Part2 pandas使用总结

1、jupyter环境准备（web交互式笔记本，python快速编码运行调试神器）。

（1）pip install jupyter

解决：下载i，no放到python的Scripts目录下，pip install xxx.whl。

（2）再次pipinstall jupyter

（3）使用jupyter notebook

new-选择对应类型可打开交互式笔记本界面。

2、Pandas擅长做什么？

（1）快速读写csv、excel、sql，以原表数据结构存储，便捷操作处理行、列数据；

（2）数据文档行列索引快速一键重定义；

（3）强大的函数支持大数据文件的快速统计分析；

（4）可以对整个数据结构进行操作，不必一行行循环读取……

如果您有上述需求，不妨继续往下看。

3、pandas安装

（1）安装：一般用pip，安装第三方库前不妨先更新下pip。

python -m pip install -U pip

pip install pandas

（2）导入

import pandas as pd

（3）帮助

查看python第三方库帮助，利用python自带pydoc文档生成工具

Step1：配置pydoc服务

Cmd下python –m pydoc –p 1234

Step2：浏览器打开http://localhost:1234/

4、Pandas数据结构

series：带标签的一维数组，标签可以重定义。

dataframe：二维表格性数组，导入读取的csv、excel就是这种结构，可以直接对行列做操作。

举个例子：

读取表格——得到类型是DataFrame的二维数组question_data：

其中的一列df[‘num’]就是一维数组series，像个竖起来的list。

5、pandas的数据处理

（1）数据检索处理。

（a）查询首尾；

（b）查询某行，列；

注意：iloc、loc、ix（尽量用ix，避免搞不清楚index和行号）。

loc：主要通过index索引行数据。df.loc[1:]可获取多行，df.loc[[1],[‘name’,’score’]]也可获取某行某列iloc：主要通过行号索引行数据。与loc的区别，index可以定义，行号固定不变，index没有重新定义的话，index与行号相同。

ix：结合loc和iloc的混合索引。df.ix[1]，df.ix[‘1’]。

（c）按条件查询指定行和列；

（d）多条件查询；

（2）数据增删改处理。

（a）增删行；

（b）增删列；

（c）行列数据相连：参看（3）（c）。

（3）多表数据处理；

（a）merge；

eg:合并两张表：

stu_score1 = (df_student, df_score, on='Name')——内连接，交集。

stu_score1

stu_score2 =(df_student, df_score, on='Name',how='left')——左连接，以左边为准。

stu_score2

how参数：inner(默认)，left，right，outer，分别为内、左、右、外连接，inner为交集，outer为并集。

（b）join——how原则同merge，默认how=‘left’

主用于索引拼接列，两张表不同列索引合并成一个DataFram，比较少用。

（c）concat——axis=0，按行合并，axis=1，按列合并

stu_score2 = ([df_student,df_score], axis=0)。

stu_score2

（4）数据统计处理；

（a）df.describe()

根据某列计算一系列统计值，df[‘xxx’].describe()，返回如下数据表：

（b）df.set_index(‘列a’)与df.reset_index(‘列a’)

需要对某列数据处理时可以通过set_index()设为索引，再用df.sort_index()进行排序，然后再通过reset_index()设回数据。

（5）文件读写处理；

以csv为例

df = ("D:/pandas_;, encoding='utf-8')

df.to_csv(r"D:\;, index=False,sep=',', encoding='utf_8_sig')

写文件时设置encoding='utf_8_sig'可解决中文乱码问题。

（6）数据集批量处理。

（a）apply和applymap

df[‘’].apply(函数)对某列数据应用函数，df.applymap(函数)对整个表应用函数。

（b）groupby

根据某列或某几列分组，本身没有任何计算，返回，用于做分组后的数据统计，如：

group_results = (['lable', 'diff_value']).size()返回每个分组的个数，常用的有max()，min()，mean()

如上是本次脚本分析涉及到的功能，此外，pandas还有作图功能，这次暂未用到，就不展开说啦。

责任编辑: 鲁达

“大数据画像如何评估”边界阅读