爱奇艺商业智能部门总监陆祁女士将介绍爱奇艺在用户兴趣分群上的探索和实践,主要介绍如何基于数据科学进行用户兴趣分群,如何基于事实数据生成用户兴趣标签,以及介绍算法验证和迭代的思路,最后介绍如何基于用户聚类的方法去做用户兴趣分群。
全文将围绕下面三点展开:
首先通过下图介绍一下数据科学专家的能力范围。
注:图片来源于网络,侵权删
数据科学家的能力主要由三方面:较强的数学功底和数字敏感程度、很强的问题解决能力(包括数据分析、数据建模和数据处理等能力)、很强的业务沟通能力。
虽然数据科学家面对的业务是比较个性化的,但是我们今天将提炼出一个较为通用且具有借鉴意义的课题进行分享——用户兴趣分群,其本质是通过大数据的挖掘和分析,反映出用户对某个主题或事物不同程度的匹配价值和接受程度。其在互联网的各行各业中是比较适用的,例如电商行业、服务行业、内容行业等,也可以应用到一些算法场景提高其准确度和效果,例如广告搜索推荐、运营策略等。
为了解不同用户的兴趣,采用最典型的方式就是给用户打标。基于不同业务的认知,所提炼出的维度是各异的,但提取的流程类似,例如爱奇艺平台这类内容行业通常按照以下几步提取用户兴趣偏好标签:
通过以上方法得到的结果,便可以反应用户的偏好倾向,得分越高表示该用户对于该主题的偏好更加强烈。
上面介绍了生成标签的流程方法。在使用该标签之前,我们还需要审视一下这个标签的适用性,例如上述提到的可比性问题。将标签引入到不同业务之前需要进行审视和验证。
对于标签的验证,主要有两种方法:
权重标签更多的是做用户中长期的偏好计算, 对于即时爱好的计算需要采用事实标签。权重标签也存在一些短板:
对于一些个性化的场景,会考虑给业务方提供事实标签,增加属性维度,方便其更灵活使用。
上图展示了事实标签,主要分为了显式行为和隐式行为,基本可以通过这些行为去判断用户对某一内容或主题的偏好程度。其中显式行为可以直观表现用户的偏好,而隐式行为虽不能直观表现用户态度,但对于应用场景而言是有意义的统计数据。
我们通过以上方法对用户进行打标之后,如何针对性的做一些内容推送或者运营策略?
我们常用的对用户进行分组的思维通常是基于用户属性,根据人口统计学的思想分为少男/少女、男青年/女青年、中高龄等人群。这种分法对于内容平台不够有针对性,因此可以采用第二种圈层方法——基于内容属性进行兴趣圈层。具有以下优势:
对于圈层聚类,首先是对内容进行聚类,如果两个内容的受众群体的重合度较高意味着内容的相似度较高,可划分为同类内容。利用用户圈层聚类系统,可客观、精准定位目标人群,具有以下优势:
通过经典的相似度计算方法可以计算不同内容专辑的用户相似度,但在实际应用中会碰到很多问题,因此通过以下修正提升任意两个内容之间重合度的可比性:
在上述优化方法的基础上,还可以采用层次聚类等聚类方法进行更深层次的优化。通过剪枝线的滑动,控制内容聚合的颗粒度,通过计算两两内容的用户相似度,将用户最相似的内容先聚在一起,依次向上聚集。
以上是一个例子,分别采用了内容聚类方法和标签的方法进行的分类。左图是对于某兴趣圈层用户聚类得到的内容,右图是通过传统标签打标分类得到。可以发现左图的综合归纳的内容和用户特征是可以推测出用户的核心诉求,即求追经典、优质IP等,内容形成一定价值体系,在娱乐同时可以向观众输出观点、产生火花碰撞。与右图的纯类别分类方法相比,更加符合用户需求。
Q1:怎么衡量用户标签的业务落地和收益?
A1:在爱奇艺团队中主要应用在两个方向,一个是人工运营和规划上,一个是与算法结合的一些模型应用上以及用户画像挖掘等方向。收益可以体现在利用线上ABTEST得到数据效果,以及人工运营的投放和活动上。
Q2:用户聚类和推荐算法之间是个什么关系?
A2:用户聚类的结果会作为信号直接输入到算法团队,但在推荐层面,模型中其实已经包含大量用户行为和内容选择的信号输入,原始数据中,已经体现了这类用户行为的数据信息。这个内容聚类更多是从业务的角度,相对于打标的方法帮助业务方更好理解其聚类过程。
Q3:如何甄别用户在某兴趣圈层是否为核心人群或边缘人群?
A3:如采用传统权重标签的方法,可以直接通过权重就能表现标签的偏好程度。而对于内容聚类的层面,例如二次元,天然形成一堆相似内容,运营便可以精准投放到该类内容背后的用户。
Q4:一些高热度节目会不会对于用户重叠度分析上带来偏差?
A4:这个问题就是上文提到的关于内容体量的相似度修正,对于体量特别大和特别小的内容需要计算两两内容用户重合度的基准值(期望),去除内容体量的影响。
今天的分享就到这里,谢谢大家。