我的研究心得

推荐引擎:业务用例


推荐引擎在网络媒体和娱乐行业的客户参与和保留方面发挥着关键作用。随着媒体数据的指数量的增长,具有大数据的推荐引擎通过高效的数据处理,机器学习和预测分析展示了一种现代的,以用户为中心的媒体交付方法。可以为电影或音乐视频,书籍或任何产品构建媒体推荐引擎。

这种电影视频(大)数据用例侧重于使用机顶盒(STB)的消费者的推荐引擎架构,其中:

 

      
使用开源Hadoop架构作为大数据基础

      
从点播视频,机顶盒活动日志,预定录制和多个媒体目录中收集原始用户数据

      
Hadoop大数据框架内处理和分析用户日志数据

      
将结果提供给搜索引擎,然后通过面向用户的浏览器界面提供独特的推荐

在粒度级别上,根据大数据日志分析方法,对各个用户行为(如观看的视频,点击的目录,计划录制的节目,平均视频观看时间)进行全面分析。在高层次上,这些巨大的数据可以为特定用户或具有相似品味的用户群描绘出热门的图片。

对于数据分析师而言,此推荐引擎架构不仅仅针对数据仓库运行SQL查询来预测趋势和首选项。与传统SQL相比,大数据通过在很短的时间内处理大量用户数据,可以提高效率。将个性化结果加载到搜索引擎上并显示在内置的Web应用程序中。

对于营销人员来说,这是挖掘用户角色和提供用户需求的绝佳工具。

对于最终用户,个性化推荐可以为他们节省浏览庞大的视频数据库的手动工作。机器学习和预测分析使推荐引擎能够更准确地预测用户的偏好,即提高用户满意度和保留率。

大数据具有可扩展性和处理大量结构化(例如用户搜索的视频标题,他们喜欢的音乐类型)和非结构化数据(例如用户观看/收听模式)的能力,可以使公司分析数十亿次点击和查看来自您和您这样的其他用户的数据,以获得最佳建议。

虽然推荐引擎已被广泛采用和研究了十多年,但仍存在一些关键挑战。

可伸缩性:随着更多用户和项目的添加,用作推荐引擎输入的数据量正在快速增长。例如,对于流行的网站,存储的用户行为数据的大小可以容易地达到每天太字节。尽管有大量数据,但大多数推荐引擎都希望在不到一秒的时间内以交互方式进行响应,以保持用户的参与。这里的主要挑战是设计能够处理这种大规模数据集的有效学习算法。

隐私:通过了解用户数据的价值,大多数网站都在收集尽可能多的用户数据。这种方法引起了隐私问题,因为数据可能包含用户希望保密的敏感信息,例如用户的地址和支付历史。尽管向用户呈现了关于数据使用的隐私政策,但他们通常没有对数据的明确控制。

稀疏性:稀疏性是缺乏信息的问题。在拥有大量用户和物品的在线商店中,几乎总是有用户只评价过几件商品。使用协作和其他方法,推荐引擎基本上使用他们的配置文件创建用户的邻域。如果用户只评估了几个项目,那么很难确定他的品味,并且她可能与错误的社区有关。

结构化建议:当前推荐引擎预测用户可能需要的各个项目。一个引人入胜的扩展是预测项目集的偏好。例如,如果系统首次发现用户正在进行冬季运动,则可以推荐一双具有匹配颜色和价格水平的靴子,头盔,护目镜和滑雪服。通过这种方式,用户可以通过单次购买获得她滑雪所需的一切。这种结构化建议存在两个挑战。首先,可能的集合数量随着组大小呈指数增长。考虑到项目的数量已经非常大,学习算法的效率可能是一个问题。其次,与个别项目不同,目前还不清楚如何为集合选择正确的评分函数。

信任:历史短暂的人的声音可能与那些在他们的个人资料中有丰富历史的人的声音不相关。信任问题产生于对某个客户的评估。可以通过向用户分配优先级来解决该问题。

 

 

 

 


 


ETC注销ETC充值ETC客服ETC扣费查询


ETC发行合作