L O A D I N G
blog banner

神策数据:5千字,详解如何做好融媒体内容智能化推荐!

  提到“智能推荐”,相信大家并不陌生,在互联网圈里最耳熟能详的要数今日头条。在早期,今日头条并非专注生产原创内容,而是将搜集到的内容通过算法推荐给平台用户。据神策数据了解,近年来,随着字节跳动集团的迅速发展,旗下的抖音、西瓜等短视频产品同样通过算法将内容推送给匹配的用户,吸引用户长久地留在平台上。在大数据和人工智能发展迅速的今天,内容推荐几乎已经成为许多产品的“标配”,对于融合媒体行业而言,在智能大屏、移动端等不同场景下的不同用户群中,内容智能推荐到底应该怎么做?接下来,神策数据将从内容推荐的类型、方式、标准,以及如何实现推荐智能化等角度,展开讲述。

  一、融媒体行业常见的内容推荐

  1.传统媒体的内容推荐——编排式推荐

  在互联网还未迅速发展的传统时代,报纸、电视台等都是传统的融媒体载体。报纸的主版面会刊登重大新闻,电视台周末的黄金时间会安排高收视率的娱乐综艺,这些都和用户的观看(阅读)习惯有关,实际上,这就是一种通过编排内容从而进行推荐的方式,通过人工的方式提前安排好内容的排列顺序与布局,把重要的信息更好地展现在用户眼前。

  2.移动端的内容推荐——规则式推荐

  当我们进入移动互联网时代后,媒体的载体开始变得多种多样,新闻资讯类APP就是一种常见的内容载体之一。它的内容资讯数量远多于传统载体,一份报纸承载的新闻可能有上百条,而在一款手机APP中,甚至可以汇聚几十万条的新闻资讯。面对如此体量的资讯内容,人工排序的方式显然并不现实,于是,通过按阅读量、发布时间等规则进行排序的方式逐渐被广泛使用。智能推荐本质上也是按照规则进行推荐,规则是由复杂的算法计算后给出。

  3.电视大屏端的内容推荐——规则+编排式推荐

  移动端通过手势操作,而电视大屏端通过遥控器操作,因此,在做信息展示时不会像移动端可以无限下滑、刷新。人工编排与规则推荐都有其合适应用的场景。比如点播详情页的内容推荐,由于影片数量极多,每个详情页不可能通过人工编排推荐,适合应用算法相关推荐、个性化推荐。而在频道(栏目)页的第一页热门区域,可以通过人工编排,甚至结合用户偏好标签,不同人群编排不同页面。

  简而言之,在技术快速发展、内容数量庞大的背景下,融媒体的内容推荐亟需引入技术推荐手段,提高平台日常运营效率,提升大屏产品用户体验。

  二、融媒体行业内容推荐的标准

  在传统时代,调研收视率是评判电视内容推荐优劣的一个重要指标之一。通过市场调研公司去获得某个卫视某个时段的收视率情况,通过横向、纵向对比,分析不同节目适合什么时段、环比同比情况等等。

  在互联网的时代,我们可以通过数据去评估内容推荐效果,通过技术埋点获取准确的用户行为,比如用户何时打开了该内容,具体看了哪篇文章等等。通过曝光、点击、阅读(播放)等用户行为量化数据,去评估是否真的为用户推荐了符合其口味的内容,而不再是通过抽样的调研分析。

  这其中有一些十分关键的核心指标,我们来逐一分析:

  1.曝光点击率

  简单来讲,所谓曝光,即指某个内容出现在移动端或者电视大屏上,而曝光点击率(Click-Through-Rate,CTR)指的是内容单元(比如一条资讯卡片、一个推荐位)点击次数与曝光次数的比值。

  举个例子,某用户进入到资讯APP后,刷了好几屏才找到一个他想阅读的内容,此时我们可以计算出该用户的CTR数据并不会很高,因为他刷了多条新闻曝光之后才点击了其中一条。

  所以,CTR能够直接反映平台给用户推荐的内容是否与其口味相符。CTR是一个数据量化指标,还可以按照内容类型、推荐方式、用户标签等多个维度进行下钻分析,以此了解平台不同频道内容对用户吸引力、人工编排与智能算法哪个更优、平台内容的核心偏好用户特征等等。

  2.人均点击次数

  人均点击次数是以内容单元点击总次数除以内容单元点击去重人数。比如在某电视大屏首页推荐位上的内容曝光很多,如果某位用户热衷动作类影片,那么他可能会点击《战狼2》、《红海行动》两部影片,此时他的人均点击次数可能为2,如果该用户将首页推荐位上的内容全部点击一遍,那么其人均点击次数可能达到 10 以上,数值越大,表明用户对推荐的内容越感兴趣。

  相比移动端而言,电视大屏的推荐位更新速度更慢,人均点击次数是最常用的推荐衡量指标之一,用来反映这些栏目页里面的推荐内容到底有多吸引用户。

  3.有效阅读率/播放率

  用户在点击内容进入后,到底会不会真正开始看内容阅读或观看呢?我们可以通过内容有效阅读率、有效观看率进行衡量,以内容的有效阅读(播放)次数,除以内容单元的点击次数。有效阅读率、有效播放率越高,意味着内容质量越高。

  CTR与有效阅读(播放)率在某些情况下是相悖的指标,比如我们通过抢眼的标题或酷炫的封图吸引用户,有助于CTR的提高,但是很多用户点击进去后可能就会离开,有效阅读率就会降低。

  因此,评估内容推荐效果时,要从多方面综合评估,避免陷入过度推崇单一指标的陷阱。

  此外,定义有效阅读率还面临一个问题是,如何定义“有效”,即什么是“有效阅读”和“有效观看”呢?

  对于资讯来说,有效阅读主要通过用户阅读文章的比例或停留时长判断。比如移动端文章阅读比例(下拉比例)大于10%或15%,可以定义为有效阅读,当然这个10%或15%要大于进入页面时的初始比例。再比如通过文章停留时长大于 5 秒,可以定义为一次有效阅读。

  对于电视大屏端来说,主要是通过播放时长来定义,比如播放时长大于 1 分钟或 5 分钟。但由于每个视频时长有所差异,比如新闻资讯类总长才3— 4 分钟,以 5 分钟来定义肯定是不合理的。因此,一个方法是分类型定义有效时长,比如长视频定义 5 分钟,短视频定义 10 秒,另一个方法是通过播放时长占内容时长比例定义,比如播放时长超过10%。

  三、基于用户行为的千人千面推荐

  内容的个性化推荐系统最常见的误区是要实现内容推荐千人千面,需要有完善的用户标签或内容标签。如下图所示,A、C两位用户的年龄与性别的标签一致,因此A看过的电影a可以推荐给用户C;电影a、c的内容标签一致,那么看过电影a的用户A也可以推荐电影c。

  这类基于用户标签、内容标签的个性化推荐实质都是朴素的推荐思想,在真实的基于用户行为的推荐系统建设中,内容标签与用户标签都不是必备要素。

  下面神策数据以零售中经典的“啤酒尿布”案例,给大家简单介绍基于用户行为的个性化推荐原理。在大部分人的印象中,啤酒与尿布的受众截然不同,一个是酒类,一个是母婴品类,但零售研究人员发现,这两款商品存在较强的关联性,这二者之间的关联性是怎么被发现的呢?

  在案例中,我们有 5 位用户来到超市购物,每一个购物车代表了一位用户在此次购物中购买的商品。每位用户的购物清单如上图所示。此时我们根据用户购买记录即可计算物品关联性。

  在所有的用户里面,有 4 人买过啤酒,其中 3 人在买啤酒的同时购买了花生,因此啤酒和花生的相似度为75%,即买啤酒的用户有75%的比例同时也会买花生。

  以同样方式继续计算啤酒与其他物品的关联性,与牛扒关联度为50%(2/4)、尿布关联度为50%(2/4)、奶粉关联度为25%(1/4)。关联性越强,代表两个商品越容易被用户同时购买。

  由此可见,即使没有物品标签、用户标签,我们也能计算出各商品之间的关联关系,为物品推荐提供依据。

  上面介绍了不基于用户、内容标签实现物品推荐的方法之一,但实际的个性化推荐系统搭建中,物品用户行为的相似性计算、物品最终推荐的排序都会更加复杂。

  下面我们将介绍目前主流的基于深度学习的推荐系统原理。

  基于人工神经网络的深度学习

  人的大脑由上百亿神经元细胞构成一个网状结构,实现了人的各种高级思维功能。人工神经网络模仿了大脑生物结构,由一层层的虚拟神经元形成一个网络系统。

  以手写识别的人工神经网络系统为例(如下图),系统最前端是信息输入,手写内容转换成 1 万个(100×100)像素输入,是系统的“眼睛”。后续的各层神经网络识别输入内容的形状特征,比如“1”和“5”在形状上就有非常大差异,最后输出层告诉我们内容形状与“0~9”哪个数字最相似。

  与大脑强大的可塑性和成长性一样,人工神经网络同样具备持续学习和迭代能力。就像围棋人工智能AlphaGo在初期时基本只具业余级别水平,但通过自我对局上百万盘的学习,围棋能力呈现指数式的快速增长,最新的AlphaGo能力已经超过人类顶尖职业选手。因此,基于人工神经网络的深度学习具有强大的迭代学习能力,能根据我们提供的用户行为数据,持续迭代推荐效果。

  融合媒体的个性化推荐系统

  下面通过一个神策数据优质客户的实践案例,讲解电视大屏端的推荐系统实施。

  上图左侧是电视大屏个性化推荐系统架构图。

  首先,我们会对大屏用户点播行为进行采集,采集维度包括用户id/机顶盒id、内容id、播放时间。

  然后系统以数据集训练深度学习模型,得到不同场景下的内容推荐模型,包括各栏目页个性化推荐、节目详情页相关推荐等等。

  接下来,神策智能推荐会直接对接电视大屏的EPG前端服务,当用户打开电视机后,EPG前端会先请求智能推荐在线服务,神策智能推荐返回用户的推荐内容清单,EPG获得内容清单后做海报等扩展信息获取,最终实现千人千面展示。

  上图右侧是神策智能推荐的推荐结果实例。History是用户的点播行为记录,REC是算法返回的推荐节目,节目的相似度越高(末位数字),越有可能推荐给用户。此外,根据用户的行为变化,推荐算法本身也在持续迭代。

  当用户观看完《熊出没》之后,推荐结果中出现了一系列与《熊出没》相关的影片,而此时家里的成年人将电视调至一档娱乐综艺,那么接下来的推荐结果中,也会开始增加与之相似的内容。但因为历史播放记录中动画片的占比要大得多,相关综艺的推荐度还不会非常高。

  深度学习的优势

  与传统的推荐算法(如协同过滤)相比,神策数据基于用户行为的深度学习具有三大优势:

  第一,更全面的行为表达。在上述案例中,我们仅采集了“点播播放”这一用户行为。在真实实践中,我们还可以采集用户点击推荐位、收藏、搜索等行为,表征更多的用户偏好特征,提高推荐效果的准确性。

  第二,包含行为顺序。深度学习可考虑推荐内容的顺序性,当用户观看完第十集的电视剧后,将不会为其推送第十集之前的内容。

  第三,组合复杂特征。多角色共用是电视大屏端与手机移动端的核心差异之一,深度学习可以通过用户观影行为,在不同的时段、不同日期推荐不同的内容,真正做到电视大屏端内容的千人千面。

  大小屏数据打通实现联动推荐

  电视大屏、手机小屏联合运营越来越被重视,在内容个性化推荐上同样可以实现大小屏打通。比如一个用户在上班的路上用手机浏览了一些电影推荐,那么当他晚上打开电视机的时候,会有更大的可能性推荐他早上看过介绍的电影。要实现这样的推荐效果,就需要我们打通大小屏的用户行为(如下图所示)。

  基于语义特征解决冷启动问题

  与电视大屏端相比,移动端资讯平台内容生产更快,推荐的时效性要求更高。但一篇新发布的热点文章没有过任何的浏览行为记录,那如何将它推荐给合适的用户呢?这是资讯个性化推荐常见的内容冷启动问题。

  常见解决方法是根据文章内容进行语义分析,从文章内容的相似性进行推荐。而分词是文章语义分析的核心工作之一。比如文章标题“全国中小学生何时恢复正常教学”,根据规则进行分词后,变成“全国”、“中小学”、“何时”、“恢复”、“正常”、“教学”,对于文章正文内容同样可以进行分词分析(分词模型与规则本身是一个复杂问题,篇幅原因不详细介绍,感兴趣的读者可以自行搜索了解)。

  当对语义理解之后,就可以基于深度学习,把对这些语义感兴趣的用户进行匹配,如此一来,只需分析文章内容,不需要用户行为,就能很好地推荐新内容,解决冷启动的问题。

  基于规则的多人多面推荐

  在栏目导航栏增加当前热点节目专题,是在电视大屏常见的运营手段。但是电视大屏的导航栏位置资源有限,而热点节目可能往往有多部,比如前段时间,《庆余年》和《叶问4》都备受欢迎,那应该把谁放在导航栏呢?在这个问题上,也用不到前文提及的千人千面,因为内容数量较少。

  下面我们将介绍另外一种“多人多面”的推荐系统,来实现大屏、小屏的和个性化推荐。在“多人多面”的推荐系统中,常常是应用用户行为标签实现差异化展示。比如上述问题中,可以根据用户过去 30 天内播放时长中播放电影和电视剧的占比,去推断用户的观影偏好,以此达到喜欢电影的推《叶问4》,喜欢电视剧的推《庆余年》。

  更有甚者,在一个家庭中,会有多个不同角色使用,简单按照播放电影和电视剧的比例去推荐也有不妥,我们可以根据用户近 30 天内各时段中电影和电视剧的占比,进行相应的推荐。

  比如该家庭中午观影较多,晚上看电视较多,那就可以在中午时段推送《叶问4》,晚上推送《庆余年》,根据用户的观影偏好实现多人多面的差异化展示。

  移动端的媒体类应用通常有新闻、本地、军事、体育等多个频道,因此导航栏的排序问题同样适用“多人多面”的规则推荐系统。我们可以根据用户资讯浏览类型占比进行排序,从而更好地吸引用户。

  比如一个用户在 30 天内浏览娱乐、社会两个频道的内容占比较高,那么就可以将这两个频道排在该用户导航栏中的前两位,更好地为其提升阅读体验。

  当然,如若想将其做得更加精细,则可通过用户资讯浏览类型占比、用户资讯完读率类型排名、用户资讯互动率类型排名进行综合排序。

  四、内容安全,全局推荐之上的干预能力

  内容安全问题是融媒体行业无法绕开的核心问题之一,那么我们怎么能保证根据算法推荐出来的这些内容,都在“安全”的范围之内呢?

  如上图所示,神策数据在全局推荐系统之上,同样为业务人员提供干预的能力。比如当出现一些突发因素需要下架某类资讯时,业务人员只要在后台进行简单操作,该内容即被“禁封”,不会再被推送至用户,省时省力,保证效果。对于“必推内容”、“置顶内容”也一样,只需业务人员在后台轻松操作,即可达到目的。

  作者介绍

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注