揭秘算法推荐:统计、分类与分发织成信息牢笼!
“让人类永远保持理智,确实是一种奢求”。《流浪地球》中MOSS直到毁灭,也没弄明白航天员刘培强为什么甘愿赴死。
MOSS是人类已经能够制造出推动地球航行的行星发动机,科技来到新高度下的高级人工智能,但与007这样具有自主智慧的人工智能还相距甚远,本质上与现在通过数据层、算法层、应用层给用户带来最优解的算法推荐是一样的。
01. 什么是算法推荐?
谈及算法推荐,大部分人脑子可能闪过的第一个词就是“今日头条”。的确,字节跳动旗下的今日头条、抖音等产品在推荐算法的赋能下,给大众留下了千人千面的深刻印象。
其实,除字节跳动外,阿里巴巴在天猫、淘宝,网易在网易云音乐,B站在视频推荐流中都有广泛使用推荐算法。可以毫不夸张的说,互联网行业中只要不是用户主动寻找的直接信息,甚至是广告背后都有推荐算法的身影。
1994年,美国美国明尼苏达大学GroupLens研究组推出第一个自动化推荐系统 GroupLens,提出了将协同过滤作为推荐系统的重要技术,也是最早的自动化协同过滤推荐系统之一。
4年后(1998年),亚马逊上线了基于物品的协同过滤算法,这便是算法推荐的最早商用案例,后面Facebook、Netflix,乃至中国的字节跳动、阿里巴巴等企业都广泛应用了算法推荐。
其实算法推荐并不复杂,总结起来就是信息的“统计、分类、分发”6个字。通俗的来讲,算法推荐就是APP利用大数据科学的给用户“算命”。
首先,后端系统会通过应用层的注册信息、用户点击行为收集统计所有信息;然后再通过策略层的相关算法对信息进行分类,勾画用户画像;最后策略层再对平台上的其他信息与用户画像相匹配,把结果在应用层呈现到用户眼中。
这个过程就好比算命,你把生辰八字告诉算命先生,然后算命先生根据生辰八字和相关法则给出你想要的答案。
数据来源:amazon
按触发条件不同,算法推荐系统目前大致有两类:
一类是被动触发的,需要用户圈定一定限制条件后,系统给你推荐最优解;
另一类是主动触发,你只要打开APP后系统就会自动给你推荐内容,无需用户设置条件。
被动触发的算法推荐中,58同城可当成一个经典案例。58同城是一个集房产、招聘、汽车、家政、本地服务于一体的综合性网站,这就造成了用户行为目的的不确定性,仅前面列举的5项功能就有21种可能,如进入里面的子项其组合可能将会成指数级增长,因此算法推荐对于他们而言的目的是帮助用户更快找到合适的信息。
例如租房时,58同城会根据用户的选购条件,例如价格、区位、户型等在数据层做出统计,然后策略层通过对房源特征分类,将每个特征赋予一个权重,再然后通过用户数据与房源特征组合形成召回数据,最终召回数据在应用层优先推荐权重高的召回数据,直至与用户要求完全相违背。
数据来源:《58同城智能推荐系统的演进与实践》
主动触发类的算法推荐,头条系的抖音必须拥有姓名。抖音与58同城的多品类、多层级的复杂信息流不同,抖音的宗旨就是让信息找人,人就是平台的流量池。
因此抖音会率先先对用户上传的视频进行统计,然后通过关键词对视频分类归入内容流量池,与此同时进行的是系统后台会对用户的行为关键词进行统计、分类,勾画用户画像,然后将用户画像与视频流量池的内容相匹配,最终给用户分发用户更感兴趣的内容,在这个过程中几乎不需要用户主动筛选。
02. 算法推荐为何易造成信息牢笼?
《老子》第五十八章言:祸兮,福之所倚;福兮,祸之所伏。前面提到,无论是被动触发类的算法推荐还是主动触发类的算法推荐,其主要目的就是减少用户获取信息的效率。
例如之前我们看长视频,要么是按电影、电视剧、综艺等分类找视频看,要么就是直接搜索剧名直接观看,反正要早一个符合自己口味的视频很是麻烦。而在算法推荐主导的短视频时代,一直刷一直看已经成为常态。
但算法推荐带来信息获取效率提升的同时,也给我们带入了信息牢笼中。2017年10月10日,又是一个忙碌的周一,《华盛顿邮报》报道了一则让美国人民无比愤怒的消息,Facebook在美国总统大选期间投放的数千个广告影响了选举,甚至还扒出了“通俄门”。
据报道,获取Facebook 5000万用户数据的剑桥数据,利用性格五力模型制作广告,再通过Facebook的算法推荐最终实现了影响美国大选目的,算法推荐成为了帮凶。
一方面,算法推荐在信息传播中占据主导地位。
公元前135年,本该在汉使面前宣扬国威的夜郎国国王,且因与汉王朝比大成为千古笑柄,而其原因不仅是因为国王深居宫内信息闭塞,更因为周边大臣长期推荐“夜郎天下第一”的信息让国王深信不疑。
从知网《推荐系统》的信息可以直观的看出,算法推荐就是夜郎国王身边的大臣,虽然个个都是人才,说话又好听,但其传达的信息十分有限,且传达的信息比较单一,例如你喜欢看搞笑视频,算法推荐就会在10个视频中给你推荐7个,剩下的才会拓展其他视频,这也是为何Facebook会影响总统大选的原因。
另一方面,算法推荐在信息传播时还具有不稳定性。
算法推荐系统是由程序员设计的一套信息分发系统,说到底还是未逃离机器分发的范畴,就以当前人工智能的发展水平来说,要想钻算法推荐的空子还是较为容易的。
这样一来,那些掌握了平台算法规则的第三方投递更多挟带私货,人们岂不是每天都在垃圾信息的海洋中冲浪?毕竟,现在只要在搜索引擎中输入某某平台和算法推荐关键词,就会出现上千万相关信息助你钻算法推荐的空子。
03. 算法推荐该走向何方
一千位读者心中就有一千位哈姆雷特,对待千人千面的算法推荐不同的人也有不同的态度,算法推荐面前,有人吃到红利对其推崇,有人沉迷其中,还有因幸存者故事将其神化,迷信算法推荐正成为互联网行业的普遍现象。
但前面提到,算法推荐在信息传播过程中具有垄断性与不稳定性,极易对普通用户造成信息牢笼,那么这样一个不完美的算法推荐未来会走向何方呢?
其一,算法推荐并行化
并行与串行是数据通讯传输的两种不同方式,据大数据期刊的《信息过载的大数据时代,大数据推荐系统如何搭建,趋势何方》报告显示,传统的算法推荐系统大多采取串行的传输方式,这种传输方式的好处是适合长距离传输,但单次只能传输一个数据单元,所以就限制了算法推荐在获取用户数据与反馈信息给用户的数据量,深化了信息牢笼的可能性。
而算法推荐并行化,可以利用并行单次可传输多个数据单元的特征,获取更多信息勾画更精准的用户画像,同时还能反馈更多信息,以足够的信息降低算法推荐形成信息牢笼的可能性。
其二,算法推荐逐步引入人文社科等新参数。
前面提到,由于机器没有人的生物性和思想性,当前算法推荐面临不良信息钻空子的局面,而造成这种局面的主要原因是因为机器缺少人文情感判定标准。
因此算法推荐未来需要在推荐系统的神经元里要植入“思无邪”和“己所不欲,勿施于人”的节点,协同过滤,最后将更优质的信息反馈给用户。
打个比方,当用户在某视频网站上无意见看到了通过钻空子进入流量池的“虐猫视频”,那么没有人文社科作为新参数的算法推荐则会在流量池中继续挖掘虐待小动物的视频,所以除在点击率、内容标签、收藏等数学参数外,还因加入人文社科参数。
其实无论算法推荐如何发展,都只是辅助人类获取信息的调味品,切不要迷信与神话算法推荐,我可不想30年自己成为机器的附庸。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)