解密阿里巴巴的技术发展路径

举报 2014-07-21

来源:商业价值
作者:张宇婷


2008年的一天,阿里巴巴集团(下称“阿里”)开了一次内部会议。在这次当时看来很平常的会议上,明确了两个议题:一,阿里是一家数据公司;二,阿里要把“计算”变成一种像水和电一样的公共品。当时在中国还没有人谈“大数据”的概念;更没有人想到云计算会和一家互联网公司未来发展如此紧密。

1999年阿里成立之初,创始人“十八罗汉”中就不乏技术基因。公开资料显示,创始人之一吴泳铭1996年毕业于浙江工业大学计算机系,后成为支付宝的技术总监。盛一飞有多年用户体验设计经验。周悦虹,java架构师,技术精湛,传言是一名极客。

随着淘宝网的成立,2003年阿里开始与IBM合作,解决用户、商品和消费信息分散的问题。当时的阿里已经从十几个人的小公司延展出很多新业务,技术系统也变得庞大复杂。到了2007年,阿里在IT上的投入之大,一度成为IBM、Oracle等国外IT厂商在中国的标杆用户。当年,阿里首席数据库管理员冯春培甚至受到了Oracle公司亚太区高级副总裁Brian Mitchell亲切接待,并被授予甲骨文全球第100个ACE(Oracle ACE 是指那些通过撰写书籍、文章或博客,分享Oracle经验的技术专家)。

但实际上,这种甜蜜的合作关系并没有持续太久。

2008年前后,阿里业务高速发展使已有的IT设备使用到达瓶颈。根据时任支付宝数据库架构师、现丁香园CTO冯大辉的描述:“在阿里的IT架构中,淘宝和支付宝等拥有大量IBM小型机和Oracle数据库,以及EMC、戴尔存储设备。用户激增与用户产生的数据越来越多,每年早上8:00?9:30之间CPU(中央处理器)要保持98%的使用率。”IBM小型机价格从几十万到高达百万级人民币,与Oracle签订的数据库软件费用达数千万,加之一大笔软硬件支付和一大笔维护费,阿里的技术发展进入一个压力很大的时期。

紧迫之中,阿里在寻找一名技术高管,要为庞大复杂的业务搭建起全新的技术架构,建立全球顶尖IT团队。在2008年的这次内部会议上,阿里确定了“数据”和“云计算”两个重要的新战略。

时任阿里巴巴首席架构师的王坚成为接受这个挑战的不二人选。


“去IOE”念头萌生


阿里巴巴CTO王坚

加入阿里巴巴之前,王坚任微软亚洲研究院常务副院长;再之前,他是浙江大学心理学系教授、系主任。加盟阿里后,王坚马上着手第一个重要工作——筹划集团全年的IT预算。他反复琢磨,发现一个重要问题:即便追加巨额IT投资,阿里购买的软硬件也未必能满足其业务的高速增长。

“双十一”大促对IT计算资源要求庞大,很难预测业务爆发点所需要的计算资源峰值。但过了高峰期,IT资源空下来,又会造成浪费。这些实实在在的难题是为阿里提供软硬件服务的厂商从没遇到过的,IBM、Oracle和他们的客户都不能为阿里IT提供任何可供借鉴的经验。其次,整个IT就像是一个黑箱子,一旦出现技术故障后,阿里的技术团队要打电话给厂商等待事故处理,而且高端存储设备的性能数据都是由厂商掌控,阿里自己的技术团队并没有太大的控制权。技术维护变成极其繁琐的工作,支撑业务的效率大大下降。

而在地球的另一端,Google和Amazon是和阿里业务相近,并值得学习的两个好榜样——Google是世界上少有的能拥有大规模分布式架构技术的互联网公司,Amazon是第一个将自己云计算技术对外提供服务,实现营收的公司。

在一次预算讨论中,阿里巴巴集团负责技术保障的副总裁刘振飞和阿里技术保障部DBA负责人周宝方偶然提到:“阿里应该尝试用PC技术替代小型机技术。”一听这句话,王坚一下子激动起来:“既然已经思考了这个问题,为什么我们不郑重写下来?明确阿里再也不购买小型机。”

“去IOE”(在IT设备中去除IBM小机、Oracle数据库及EMC存储)由此得名。

在2009年到2013年整个“去IOE”的过程中,阿里技术发展策略逐渐从“商业软件”、“开源软件”发展到自主技术和云计算构成的综合技术服务能力。便宜的Commodity PC替换掉过去昂贵的硬件设备,淘宝、支付宝等重要业务将旧的“IOE”集中式架构转变为分布化架构,这种架构是把IT后台迁移到云计算平台上的基础工作。

在“去IOE”过程中,阿里技术团队也完成了一次成熟的转型,这为阿里向外提供云服务打下了基础。王坚来阿里之前,阿里各业务技术后台是独立运营的,他将阿里运维团队、平台技术部、大淘宝运维团队、云计算运维团队等整合到一起,成立了集团统一的IT技术保障部。阿里旗下子业务模式差别巨大,IT工具和价值理念也完全不同,所以统一团队经历了很大的技术挑战和组织挑战。这项工作实际为后期阿里云向外提供服务打下了很好的基础,阿里后期推出的“聚石塔”、 “聚宝盆”业务,与这支在“去IOE”过程中锻炼出的队伍密不可分。

除了团队,技术人员也面临着个人转型。王坚曾多次说:“‘去IOE’最难的就在于人。每一次的技术转换,我们都是在革自己的命。如果没有同事们当时敢于尝试的勇气,阿里的技术难题都可能扛不过去。”曾有一位技艺精湛、对业务非常熟悉的淘宝数据库管理员,在“去IOE”过程中,他从Oracle数据库技术,转到MySQL数据库,最后去研发阿里自有技术OceanBase数据库。

技术的重新选择让阿里最有价值的一批技术人才,随时要面对熟练的技术突然没有用的情况。曾参与IBM小机下线的技术人员楼方鑫曾说过这样一段话:“去掉一两个系统的IOE不是最难的,也不能代表成功;通过‘去IOE’提升和锻炼团队的能力,协调好运维和开发团队间的工作才是关键。”



小机,再见!

阿里巴巴最后一台下线的IBM小机

淘宝是首先推行“去IOE”战略的业务部门之一。“去IOE”之所以能从淘宝开始,是因为淘宝拥有阿里最大的Oracle数据库,成本和技术压力最大。淘宝技术专家余锋曾说:尽管Oracle数据库性能稳定,但是对于淘宝来讲,Oracle数据库本身已经不能满足业务需求。淘宝的数据库专家从IT前端逐渐过渡到后端,弱化Oracle数据库,把“Oracle数据库+IBM小型机+EMC存储设备”切换到“MySQL数据库+PC Server的模式”。到2013年7月10日,淘宝重中之重的广告系统的Oracle数据库全部下线。

2013年5月17日,阿里集团最后一台IBM小机在支付宝下线时也使阿里“去IOE”运动越发受到关注。

在“去IOE”的进程中,支付宝首席架构师程立有自己的苦衷。支付宝有阿里最后一台IBM小机,这台小机管理着支付宝用户的所有资金。如果这台小机出现故障,用户将会无法支付,甚至连自己账户里有多少钱都看不到了,后果将不堪设想,因此对这台小机的任何改动都要确保万无一失。去除支付宝IBM小机的第二个难点在于,去除小机的前提是实现技术架构分布化,为支付宝IT迁移到云平台打下基础。但将技术架构从集中变成分布后,很难保证强一致性,比如客户A给客户B转了一笔钱,不能出现A的钱扣了,但B的钱没增加的情况。如何在一个分布的系统中保证交易处理的一致性是一个要攻克的技术难题。

“在王坚博士梳理整个阿里技术架构的时候,支付宝曾经是他‘去IOE’最大的一个‘障碍’”程立向《商业价值》记者说道。“我们必须要保证每天处理的大量资金,一分钱都不能错,一笔都不能差。”出于谨慎,程立和团队在去掉支付宝系统中其它所有的IBM小型机后,还保留着这台小机管理最重要的账户资金。”

时间回溯到2012的“双十一”大促的凌晨,很多消费者不断点击支付按钮,却常常看到支付宝的排队页面。消费者以为支付宝系统崩溃了,实际上,当时是因为支付宝仅存的这台小机的承载能力有限,在高峰交易期,系统只能对来不及处理的请求进行排队,这种排队带来的延迟产生了巨大的用户体验障碍。

“双十一”的痛苦经历,让程立最后下定决心去掉这最后一台小机,最终,支付宝技术团队设计出了基于互联网技术的分布式交易处理方案,通过一次完美的项目执行去除了支付宝、同时也是阿里的最后一台IBM小机。

2013年的双十一是程立经历过的最轻松一次“大促”,再也不担心有任何技术节点会制约业务的发展了。


一台超级计算机


在阿里进行“去IOE”同时,另外一项重要的技术研发也在同时上演。2008年10月24日,飞天研发启动。“飞天”是什么?飞天是阿里的大规模分布式系统,几乎等同于整个阿里云的整个技术体系。

技术网站博客园对飞天——这种分布式技术有一段生动的描述:当你只有六七条鱼的时候, 一个小型鱼缸就够了;可是过一段时间新生了30多条小鱼,这个小缸显然不够大了。如果买一个大缸,把所有水草啊、布景、加热棒、温度计都从小缸里拿出来,重新布置到大缸。这个工程要花费很多时间,尤其水草,纠结在一起很难分开。分布式系统可以帮你在这个小缸旁边接了一个同样的小缸,两个缸联通。鱼可以自动分散到两个缸。帮你越过复杂的系统扩建过程,省掉了很多时间和设备成本。

阿里旧的“IOE”架构,本质上代表着基于传统高端设备、大型数据库等软硬件的集中式架构。陈旧集中的技术无法应对阿里爆炸式业务增长,如果在IT系统中有一点出现问题,整个架构都面临危险。飞天这种分布式系统集中大量的通用服务器在一个系统中,比单个的大型集中式系统运行速度更快。而且,把计算能力分散到众多机器上,单个节点的故障只会影响一台机器,其它机器可以照常工作。

2013年3月,阿里技术保障部给公司高层突然发信一封:“云梯1要撞墙了!”云梯1是阿里内部另一个基于Hadoop的分布式集群系统。保障部的员工发现按照现有数据增量和未来业务增长的情况,阿里的存储和计算能力将在3个月内达到瓶颈,数据业务面临停滞,必须将飞天系统快速扩建起来。

飞天的快速扩建要克服很多难题,国内有大规模分布式系统经验的人不多,阿里的技术团队里只有少数做过或用过分布式系统,所以整个研发的过程是一个探索学习的过程,只有遇到实际的问题,团队才会对工程上的难题有所领悟。

其次,在系统设计的时候,工程师会设定相应的工作场景、硬件环境的完备性。但在实际生产环境下,各种硬件环境、参数配置,往往会打破设计时的假设,因此总是会碰到各种问题。在解决这些问题过程中积累的经验,显然不是教科书上可以学到的理论。这个超大计算机也有自己的软肋,她要比单个服务器的可用性和可靠性要高很多,才能保证服务“永远”不中断,数据“永远”不丢失。

经过4个月的不懈努力,飞天资深技术总监唐洪和他的团队将5000台飞天集群部署成功。阿里成为国内首个单集群达到5000台规模的公司,在此之前,全球也只有Google、Facebook等顶级公司可以按照5000台机器来划分集群规模。

飞天能做什么?用唐洪的话来说:“它有100PB级别的硬盘,可以存放几百亿的网页;可以给几十万的用户,每人提供几百G的存储;再或者是拥有了一台万核以上的超级计算机,普通计算机一个月需要完成的渲染作业在这个计算机上只需要几分钟就可以完成。”



“双十一”云备战

飞天资深技术总监唐洪

“去IOE”与“飞天5K”技术成功后,阿里集团内部所有的重量级业务都已迁移到云计算平台上。

“聚石塔”、 “聚宝盆”、“阿里金融”的大数据研发以及YunOS智能移动操作系统等,都运行在阿里云飞天平台上。淘宝、支付宝等各业务部门的底层技术也架设在飞天平台上。阿里金融基于云计算,几分钟之内就能让贷款发出,每天处理上百TB的交易数据,而且保证了每一笔贷款发放的计算成本相同。淘宝也基于阿里云推出电商云——聚石塔,为“双十一”服务。阿里云推出电商云—聚石塔,为“双十一”服务。2012年“双十一”,通过聚石塔,阿里云支撑了天猫20%的交易额, 2013年这一数字上升到75%。

2013年“双十一”大战前3个礼拜,天猫技术总监庄卓然接到集团通知:大促结束后,他将要被抽调到无线事业部。对他而言,3年的“双十一”备战完美收官,又将迎接新的挑战。2013年,阿里第5个“双十一”,天猫和淘宝单日成交额达到362亿元(根据招股书数据),网站PV过百亿,76%的商家处理工作在聚石塔云计算平台完成,且无一漏单,无一故障。支付宝成功支付1.88亿笔,最高每2分钟支付79万笔。用庄卓然的话:“疯狂业务数据的背后,是对阿里技术团队一次整体大阅兵。”这场阅兵检验了阿里“去IOE”和云计算的成果。

3年备战“双十一”,庄卓然每年都重复着高效的工作时间表。5月底,投入产品和技术准备。筹划新的突破点和创意同时启动,投入到一些较长周期的研发工作。8月底,真正的考验来临,冲刺时间段,他每晚习惯性要到两点多才能睡着。有时候,想一些技术难题觉得有突破时,一睁眼就到天亮。庄卓然自己形容自己的工作状态像“精神分裂”一样,左脑思考的是系统的稳定性建设,右脑不停地找寻当前系统的命门和瓶颈。每一次大促都是对团队技术能力的考验。

2011年和2012年的“双十一”前夜,庄卓然和技术团队都非常不踏实,即便该做的技术准备都做了,但面对“双十一”巨大的突发流量,只能尽力保证一个完善的技术机制,抓大放小。“双十一”的最大难点在于峰值流量一压过来,系统要扛得住千万人同时在线和每秒数亿笔交易。

淘宝和天猫的技术体系非常庞杂。每一笔交易都涉及到银行、商家、淘宝自身和网络等多个系统的处理能力。交易信息层层传递过程中,某一个技术细节执行不到位,交易就可能失败。比如,当用户量大到一定程度,系统让用户排队,如果这个功能失效,一连串的上下游系统都会受到影响。淘宝的几万台机器,上千个应用系统复杂交错,很难实景模拟所有的用户行为,比如1000万人同时在线,同时下单。2013年,庄卓然对“双十一”技术的确定和把握,一部分来源于技术团队已经能实现在短期内集结一大批虚拟用户去做压力测试;另一部分是淘宝天猫后台和大多数商家后台已经上云。

淘宝、天猫上大概近千万家商家,其中大部分的商家都有自己的ERP系统。消费者买一个东西需要点击购买,然后进行支付。这个动作会指向两条IT路径:一是连接支付宝,保证有钱可以完成支付;另一条则是进入卖家的ERP,卖家需要知道自己是否有库存,并减掉相应的货品数量。交易从淘宝或天猫链接到卖家后台系统的过程中,如果卖家IT系统薄弱,数据交换可能会因为网络等原因不通畅导致交易失败。

庄卓然详细讲解了这一过程:“聚石塔提供的云推送功能在第一时间将交易订单同步部署进商家的ERP、物流、CRM软件中,并提供动态弹性扩容和安全保护。消费者下单到发货、发票打印,所有信息流转都在云上完成。”


云上生态系统

阿里云业务总经理陈金培

天猫技术总监庄卓然

聚石塔只是阿里云应用的一个侧面,阿里长在云上的商业生态体系已经初步形成。

王坚曾说过:“阿里云平台在内部的代码就是飞天。一个平台的力量有多大,可以造就的东西就有多大,这是过去阿里云为什么花费这么大力气做飞天的原因。”飞天以Web API的方式,向外提供计算、存储和大规模数据处理等云计算服务,建立起庞大的云计算生态体系。

未来的互联网将成为一个果园,各行各业像是一棵棵果树,如何为果树提供良好的养分服务,决定了果园生态的丰富程度。云计算就是牵引传统行业互联网化的引擎。数据将成为云生态里的生产资料,通过强大的计算能力进行实时分析和交互,可以催生出无数新的商业模式。

在阿里刚刚递交的招股说明书中写道:2013年1?9月,阿里云计算服务等收入达5.6亿人民币,占总收入的1.4%,同比增长15.7%,并且已经拥有98万用户。阿里云快速地将阿里和不同行业企业联系到一起,比如消费电子、公共卫生、能源管理、媒体、电子商务、电子政务、移动互联网等。阿里云客户中有传统的互联网公司,也有移动互联网公司,比如手游公司;还有一些传统企业,比如杭州九阳股份有限公司,这些传统企业的IT逐渐向云迁徙。例如,2013年,阿里与美的集团的深入合作,是基于天猫商城、大数据和阿里云计算平台的多维度合作,这种借助云和数据的能力,让传统企业能与互联网走向更深的耦合。

阿里云还在借助ISV合作伙伴,帮助更多的传统企业上云。2013年,东软将旗下SaCa、UniEAP等软件产品部署在阿里云上;普元推出基于阿里云的EOS-Cloud平台,直接在云上支撑企业软件开发。这些ISV厂商有大量传统企业用户积累,这种深入合作撬动了一批传统企业上云。2014年,5月8日,阿里云宣布香港数据中心正式投入使用,阿里云正与Amazon AWS、、微软Azure展开正面竞争,阿里的云生态体系部署已经蔓延到国外。阿里云业务总经理陈金培认为:“所有的产业竞争都是生态系统的竞争,你要么依存于一个生态,要么自己发展出来一个生态。”马云搭建的基于数据和云的生态,已初步形成。

2013年初开始,阿里将其战略调整为“平台、金融、数据”三大业务。云计算是金融、数据的基础。2014年春,马云的内部信件再次明确了阿里的未来战略:走向激活生产力为目的的DT(data technology)数据时代。马云的策略是让数据、云计算成为中国商业的基础设施。



【阿里巴巴的技术节奏】


2007年

以互联网为平台的商务管理软件公司阿里软件成立。

2008年

王坚加盟阿里成为集团首席架构师

阿里巴巴集团研发院成立

飞天研发工作开始

2009年

阿里软件与阿里巴巴集团研发院合并

阿里云计算成立,在杭州、北京、硅谷设研发中心和运营机构

Oracle产品构建的RAC集群成为国内最大的数据仓库

淘宝拥有第一个分布式计算系统Hadoop集群,规模300台

2010年

阿里云第一个云计算机房启用

阿里巴巴数据量大爆炸的一年,RAC集群不能满足业务发展速度,迁移到Hadoop

2011年

阿里云官网上线,“飞天”开始对外提供云服务

阿里巴巴云智能手机操作系统云OS正式发布

2012年

“冰火鸟”启动建立支持集团数据化运营,自主研发的分布式计算平台对全集团提供服务

2013年

阿里云计算与万网合并为新的阿里云计算公司

“飞天”集群达到5000台,100T数据TearSort算法30分钟完成,比当时的世界纪录快2倍以上

2014年

阿里云发布移动云平台-聚无线

香港数据中心正式启用


本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本内容为作者独立观点,不代表数英立场。
本文禁止转载,侵权必究。
本文系数英原创,未经允许不得转载。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    DIGITALING
    登录后参与评论

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    800

    推荐评论

    全部评论(1条)