秒男,其实是一种夸赞
1
有一次我在楼下的羊汤馆吃饭,隔壁桌坐着两个人在聊天,因为有些名词太熟悉,就忍不住听了一耳朵。
不听不知道,一听吓一跳,好家伙,高手在民间,大佬在街边,原来大数据早就是过时的概念,现在是AI的时代,算法才是硬道理,创业就要做AI,招人就要招算法,算法打爆一切,算法就是未来。
我硬是忍住了自己吐槽的欲望,没有上去直接问他做AI,数据从哪里来,也没有问这数据合法不合法,实在是怕被打。
人家就是聊聊天,你认真了去拆台,挨打那是活该。
互联网这个行业喜欢炒概念,一个名词最多火个一两年,但是一个词不火了并不意味着就没用了,恰恰相反,当那些喜欢跟风炒概念的人都跑去炒下一个风口的时候,这些“过时”概念的真正威力就会显现出来。
大数据这个词已经过气三四年了,谁再跟你提你都得嘲笑他。
但你看现在这个世界,已经到处都是数据的影子了。
以前出门吃顿饭常常需要碰运气,看哪家店离得近,问路还要找水果摊的大爷,后来O2O普及,找店从被动变成了主动,手机上一点就门儿清,这其实就是店家数据收集和整合带来的便利。
再后来智能推荐取代了主动搜索,我们发现这些送上门的结果越来越准,甚至在下次饭点前就被安利几个新店,而且就是你喜欢的那一口;
听歌瞧视频也不用主动查找,而是打开APP,让软件把我们喜欢的东西主动推到脸上来。
这事儿有好有坏,但这本质上是对用户偏好数据的整合利用,我们使用网络时不经意间留下的数据足迹会成为推荐所参考的标准,然后在反复试错和匹配中形成最适合用户个人的推荐算法。
这种处处都是推荐的生活方式已经把过去的人和未来的人分成了两种人,而这种改变的节点,就是人类开始有能力快速处理生活中时刻产出的那些琐碎且多维的数据。
没有数据,一切都是空谈。
2
《三体》里提出过一个概念,叫技术爆炸,指的是技术突破到某个节点后突然以爆发级的速度开始成长,可以吓坏外星人。
我们有幸亲眼见到了“数据处理”这一行的技术爆炸。
人类发展了几十万年,通过各种手段积攒了大量的数据,但是这些数据要么没有传承下来,或者没有得到有效利用,大多在历史的长河中被自然消耗掉了。
这是因为构成数据时代的三要素在那时还不够强大。
数据时代的三要素是算力、算法,和最最重要、最最关键的数据。
过去我们缺少存储媒介,信息都要靠手写和印刷,数据很容易流失和损坏;
算力资源同样缺少,最强的算力单元就是人脑;
唯一能玩的就是算法,却受制于算力和数据的不足而发挥不出来。
不是只有写程序才是算法,历史上所有归纳总结的方法,都是朴素的算法。
进入计算机时代后,数据存储能力和计算能力都得到了有效提升,并因此开启了科技爆发。
但这时候数据的处理依然是单一的,数据收集得更多了,但大量的数据依然没有得到有效利用,就是简单的堆在了那里。
一直到十年前,技术突破到了一个临界点,算力瓶颈被打破,不再被算力限制的程序员脑洞大开,开始提出各种神奇的算法,算法的威力被释放出来,积蓄已久的数据终于有了配得上它们的处理和分析手段,这才有了互联网企业像韭菜一样一茬又一茬往外冒头的场面。
移动互联网时代的大范围创新,其实就是扎根在对过去那些“无效”数据的挖掘利用。
一个人的爱好、习惯,这些鸡毛蒜皮的,曾经会被筛除的数据,纷纷变成了金矿,企业们为了抓住这些数据里的商机而不断推高算力,不断研究更先进的算法,在这些数字金矿里疯狂淘金。
没想到的是,在这个节骨眼儿上,数据本身却成了瓶颈。
数字化和智能化企业的焦虑症,就是总想找到更高效、更精准的工具来更高效率地把数据价值转化成商业价值。
赚钱嘛,不寒碜。
然而当算力和算法达到一定高度的时候,数据却开始掉链子了。
隐私意识提高,互联网信息安全逐渐规范;
旧数据被大量消耗,新数据同质化严重无法推陈出新;
即时数据太多,不能有效处理。
储存数据本身都成了问题,成本和效率无法兼顾。
这些问题开始困扰以数据为生命线的企业们,并因此导致了大数据风口的冷却。
大家发现,大数据这么牛,但好像,没有什么用。
或者说,能用,但是成本还不如自己的野路子好用。
数据很好,但门槛也实在太高。
3
IT时代算力的代表是各种“U”。
从通用的CPU,到专用的GPU、TPU……,这些处理器构成了算力的基础,是行业推进数字化、智能化的基础设施。
CPU将人类带进信息时代,GPU的并行处理能力催生了AI技术的进步,而未来的XPU可能会在算力方面进一步解放人的想象力。
而AI,则是算法应用的代表。
算力和算法这哥俩儿光鲜亮丽,占据了报纸的头版头条,吸引了大众的眼光,以至于大部分普通人都忽略了数据的重要性甚至是本源价值,相当多数据公司雄心万丈地入行,却在入行后才发现最大的瓶颈出在数据处理和治理上。
如今数据收集和处理技术的发展,将更多原本不被重视的数据带到了台前,这些数据蕴藏的价值被挖出来之后,这些数据也变成了标准数据。
而处理更多维数据带来的收益,正刺激人们去收集更大体量、更多维度的数据,希望其中的价值也能随之变多。
数据的量、时效性、多元性呈几何倍数成长,为数据存储和访问带来了巨大的压力。
但是很多企业一开始并没意识到这一点,他们正在为了处理这些数据而绞尽脑汁,还没来得及思考存储和访问这些数据的问题,当他们意识到的时候,数据存储和访问已经拖了数据处理的后腿,严重限制了算力和算法的发挥。
就好像一个将军在地图上构思了一整夜穿插合围的战术微操,早上起来发现后勤没有粮一样。
机械硬盘的速度填不满各种U的胃口;
固态硬盘速度快点但也有限,耐久性还存在不足;
内存确实快得一骑绝尘,可这也掩盖不了它容量上的短板和断电就丢数据的尴尬。
企业陷入了两难的纠结,不增加服务器或存储设备就装不下更多的数据,而增加服务器和存储设备就会带来暴涨的成本,这个成本还不仅仅是采购成本,还有围绕新增设备所有与数据中心建设、升级和运维相关的成本,要知道,国家已经在制定相关标准提升单机密度,以减少数据中心对土地的需求了。
当数据的储存和访问就这样变成了瓶颈时,企业们才惊讶地发现挖金矿最重要的不是镐头有多锋利,而是怎么捏住矿脉。
于是越来越多的人把目光投向英特尔。
4
英特尔是硬件领域的化石级企业,著名的摩尔定律就出自英特尔的创始人之一戈登·摩尔。
一般人只知道英特尔做CPU,但其实英特尔创立之初的本业其实是做存储产品,处理器反而才是“偏房”扶正。
英特尔从90年代开始涉及到服务器领域,推出了第一款专门为服务器设计的处理器Pentium Pro,随后又通过迭代升级,推出了著名的服务器级CPU品牌“至强”(Xeon),从此在企业计算领域走上了快车道,一路做大。
新世纪后英特尔重回存储领域,全线出击,布下了一个庞大的技术矩阵。
大家比较熟悉的是它的NAND固态盘,而这还不是它真正的撒手锏,NAND产品谁都有呀,于是它就搞了一个更独特的创新:傲腾存储介质。
傲腾存储介质也有消费级市场的产品,但它的威力在企业级存储的战场上体现得更为淋漓尽致。
它的时延比NAND闪存芯片低很多,而且不仅读数据的速度快,写得也很快,且长时间写入时性能稳得一批,一下子就吸引了那些被数据存储和访问瓶颈难住的企业,尤其是采用这种存储介质的产品有了能插在内存插槽上的新成员——傲腾持久内存后,大家就更坐不住了。
因为这些优势刚好契合这个推荐算法控制下的时代。
目前的推荐算法主要有两种,一种是用户画像,一种是同类推荐,同类推荐就是我们经常会被弄得很恼火的“买桌子推桌子”式推荐,这种推荐是大数据应用的初级阶段。
用户画像则是通过采集数据,推测一个用户的性格、习惯、爱好、经济实力等等,我们可以将这些数据统称为用户的“个性”,然后有的放矢地为用户推荐和他们 “个性”相似的,或者说他们会感兴趣的东西。
而建立这种包含用户性格、习惯、爱好的用户模型,就需要大量数据进行分析和训练。
在通过用户的操作获得用户数据后立刻进行学习和推测,这里就是考验数据存储和访问的关键环节了。
大量的运算需要将尽可能多的数据存到尽可能高性能的缓存中,目前这种缓存主要使用DRAM内存,快是它的优势,但容量、高成本则是它的不足,在数据量小的时候一切安好,在数据量显著增加的现在,DRAM内存已经顶不住了,它很难被迅速扩展来装载更多的数据。
而英特尔的傲腾持久内存,就可以和DRAM内存搭配,把缓存的容量扩大,将更多数据放在距离算力更近的地方,让它们能够得到更为高效的处理、分析和利用。
傲腾持久内存就这样不经意间在大家的心里打了卡,它同时兼具了接近DRAM内存的速度和接近固态盘的容量,而这种融合正是企业级用户所渴盼的。
除了数据读写的速度、时延、成本和容量外,傲腾持久内存还解决了企业级用户的另一个巨大痛点——数据持久性,因为它断电后不丢数据!这让那些时刻担心系统宕机或重启后要花N多小时恢复数据的运维们长出了一口气。
百度就是较早尝鲜持久内存的企业,它之前就基于自己在搜索引擎、人工智能方面的技术优势,构建了一个内存数据库Feed-Cube来为Feed流服务提供数据存取服务,而面对规模日渐庞大的数据,这个数据库的压力也变得越来越大。
百度一度试图将Feed-Cube的核心存储设备从DRAM内存换成NVMe固态盘,但并不能解决问题,因为后者的性能实在是不太行。
结果等到傲腾持久内存一出,百度就立即尝试了一把,它和英特尔一起针对使用场景进行了多次优化,包括导入第二代至强可扩展处理器和持久内存搭档,在服务器BIOS中加入支持傲腾持久内存的驱动支持等,最后发现:混合使用DRAM内存和傲腾持久内存能在数据访问性能达标的情况下将单服务器使用的DRAM内存减半,大幅消减的成本让百度情不自禁地夸赞:真香!
百度立即又在某核心业务模块的故障恢复中测试了一把,原来只配备DRAM内存时,断电后要花数十分钟从固态盘或机械硬盘中重新加载数据到DRAM内存来恢复服务,可配了持久内存后,加载时间一下就被缩减到了以秒来计。
对数据恢复这行来说,秒男才是最棒的夸赞。
因为业务从来不等人。
5
与这些高度依赖推荐系统的互联网企业或移动互联网企业相似,传统行业的企业也在尝试挖掘数据的价值,一些金融、风控方面的行业,都在逐渐加强对数据的重视和对数据价值的挖掘。
而他们在尝试使用推荐系统、人工智能和大数据技术的时候,也会面临数据存储和访问的瓶颈。
北京有一家公司,名叫第四范式,这家公司的主业是研发和输出领先的人工智能平台与技术服务,主要服务于金融、医疗、零售、制造等行业。
这些行业的数据有高维、稀疏的特性,他们的AI应用需要大量数据,且对时效性和数据安全性要求很高。
起初,第四范式使用的是传统的解决方案,即通过DRAM内存满足实时数据处理和数据模型的存储需求,并通过不断备份来回避数据容易丢失的问题,来保证服务的连续性和质量。
但随着数据量激增,内存压力和备份压力都与日俱增,出现数据丢失后备份还原的过程会花好几个小时的情况,这对某些需要时效性的行业来说非常致命。
理所当然的,他们也找上了英特尔,也相中了傲腾持久内存,用它重搭了AI应用系统的架构,对其中的万亿维级稀疏参数服务器和大容量内存特征工程数据库进行了充分优化,结果就是:更新后的系统能在保持高性能的前提下,减少内存服务器数量,某些场景中成本可降低60%左右,同时系统的数据恢复速度能从小时级缩短至分钟级。
如果在系统中换用英特尔今年最新发布的Ice Lake架构第三代至强可扩展处理器和傲腾持久内存200系列,内存特征工程数据库的请求发送时延性能和吞吐性能还可以得到显著提升。
顺手的,第四范式和英特尔还用持久内存把系统中的Kafka服务器做了个优化,在吞吐带宽一定的情况下,大大减少了它对服务器的需求数量,而且双方还把这个成果转化成了开源的Kafka优化版本——Pafka。
现在,智能推荐正在从互联网行业走向线下,开始更多地影响实体经济,这是一个标志,就是消化数据带来的技术反馈正在扩展到更多传统行业,颠覆传统行业的运作模式。
越来越多人意识到数据的重要性,不是一种顿悟,而是一种历史的必然。
科技已经发展到这一步了,当数据处理的基本架构已经完善,最大限度发挥数据的威力就是企业必然的选择。
数据的时代已经到来了,未来的数据不仅仅限于互联网,而是属于全世界。
世界在慢慢进化也在扁平化,这导致每一个变化,影响的其实是所有人。
在一个逐渐扁平化的世界,进化的节点往往只取决于科技树上的一点点进步。
傲腾存储技术的突破,是数据利用上的突破口,它为AI或其他算力和算法工具的技术价值变现提供了一个新的解题角度。
这个角度走到最后,赢家未必一定是或者仅仅是英特尔,但新角度的出现,必然会带动一连串技术的演进。
深度是时间的自然,进化是人类的必然。
科技总是如此,在光鲜亮丽的应用科技备受吹捧的同时,永远是枯燥的基础科学在为它们奠基。
当“基础科技”达到临界点,时代会不受控制地走向下一个阶段。
这不重要。
真正重要的是,我们的目标,是否达到。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)