天涯书库 > 蚂蚁金服 > 敬畏之心 >

敬畏之心

2015年1月,我第一次见到程立,当时他在黄龙时代广场B座12层一间朝南的办公室里办公。一年之后,这个办公室的主人已经变成了老苗,程立则搬到了离此不远的黄龙国际中心。2016年1月,我再次见到程立。那天,他上身穿着一件Play牌的灰色V领针织衫,下身穿着一条蓝色牛仔裤,在办公室沙发前的茶几上,摆着一套茶具和各色小茶壶。

在这次采访之前,我听到了很多关于他的“江湖传闻”。比如,程立在和同事讨论问题时,会一边写毛笔字一边听,经常是同事讲完,他脑子里的对策就想出来了。有人说,几乎所有的技术问题都会在程立那里找到解决思路。

再次见面,我拿这些“江湖传闻”和他求证。

程立认为,很多时候是“当局者迷”,一些同事喜欢找他讨论问题,但是最懂这件事情的还是他们自己,很多时候他只要听就可以了。一些原本准备向他请教的问题,最后往往变成了业务人员自己讨论的问题,而程立就在旁边写字,等字写完了,找他的同事也讨论出来结果了。

每当写字时,他就特别平静,头脑处于一个“接收”的状态。而如果站在人群中听讨论,他往往会迷失。因此尽管他在写字,但也是在听讨论,稍微脱离一点,反而会听得更加清楚。

在一次给湖畔大学的授课中,彭蕾特别提到,程立平时不太爱说话,别看他在开会的时候经常写字,他的“天灵盖”是打开的,始终在接收外部的信息,所以,程立很容易走进他人的世界,和周围的人发生“连接”。[5]

正是出于这种赏识,彭蕾开始让程立承担更多责任。

2013年的一天,程立被叫到了彭蕾的办公室。

“李静明要回美国,由你来接任首席技术官怎么样?”彭蕾开门见山地问。

程立听完后很犹豫:“我从来没有领导过这么大的团队,而且,李静明所表现出的领导气质和做法我根本做不到。”

程立所说的李静明,是当时支付宝的首席技术官,李静明曾在Sun微系统、Unisys等跨国IT公司担任技术总监、首席架构师等职务,在来支付宝之前,曾在阿里云担任副总裁。他作风强势,为了工作的事经常和同事据理力争,有时甚至拍桌子争吵。目睹了李静明领导风格的程立,对自己能否做一个首席技术官产生了很大的怀疑,因为李静明的性格与他截然相反。

听完程立的话,彭蕾没有说太多,只是让他再考虑考虑。

两个星期后的一天,为了劝说程立接任蚂蚁金服首席技术官,阿里巴巴集团首席技术官王坚找他聊天,但程立依然婉言谢绝。理由一样,他还是与李静明做比较,觉得自己还不具备领导这么多人所需要的气质。

王坚当然理解程立的想法,这位曾经的心理学教授,片刻思索之后说:“你永远也成不了李静明,但是你也一定会有自己解决问题的方式。”

这句话给了程立极大的信心,他慢慢觉得自己至少可以先试试看。

从2005年加入支付宝开始,程立在十几年间岗位不断发生变化,每次职责转变对他来说都是一次挑战,当他的角色从单纯的技术走向技术管理的方向时,他开始承担很多过去没有想过的责任。作为领导,团队里每一个人的错误都是自己的错误,但团队里每一个人的成果未必是自己的成果,这时整个人的心态就需要重新调整。

程立坦承自己是个普通人,如果没有支付宝和蚂蚁金服,他可能会在一个工作岗位上兢兢业业地工作,但是支付宝这个舞台给了他很多锻炼的机会。幸运的是,他属于最早加入支付宝的那批员工。在他看来,能够加入一家刚刚起步的公司是一个巨大的优势,和后来加入的同事相比,他会更多地了解一些事情的背景,这样就更明白哪些原则是可以打破的。

用他的话说,十年里犯的错误大部分是在支付宝创业的早期,犯了错误后学到的东西和书本上学到的东西不一样,它不仅可以让人学到经验,也可以改变人的思考方式和做事原则。

然而,在2013年真正接手之后,程立才发现,首席技术官工作的复杂程度远远超出了他的想象。在做首席架构师时,同事对他都非常信任,但凡技术问题都是可以解决的,但担任首席技术官之后,他突然发现,不仅这种信任变少了,甚至还有很多人反对他。

2013年,支付宝内部有一个工程师论坛,其中一个版块叫作“畅所欲言”,在这里,每个人都可以匿名发表对公司、对部门和对团队的看法。程立刚接手那会儿,全都是负面的帖子,很多人抱怨公司,他也不知道问题出在哪里,但是大家只是感觉不爽,这种感觉持续了一段时间后才慢慢好转。

有过此番经历后,程立觉得,最大的挑战在于适应变化。今天,尽管程立已经成为阿里巴巴集团的合伙人、蚂蚁金服的首席技术官,但是他面临的挑战绝不比他刚进入支付宝时少。

2015年5月27日下午,支付宝的很多用户发现,从当天下午4:30左右开始,支付宝出现网络故障,转账、付款、手机充值等功能均不能正常运行。在进行相关操作时,支付宝会出现“系统错误,请稍后再试”、“网络无法连接”等提示。

巧合的是,当天下午,银监会网站发布了关于浙江网商银行的开业批复,对于一向宣称自己“系统安全性高,灾备能力强”的蚂蚁金服而言,这是一个尴尬的时刻。

当天晚上6:05,支付宝钱包官方微博解释称,这次事故是“由于杭州市萧山区某地光纤被挖断”而“造成目前少部分用户无法使用支付宝”。支付宝表示,运营商正在抢修,工程师正在紧急将用户请求切换至其他机房。支付宝还特别强调,用户的资金安全并不会因此而受到影响,交易数据不同步的情况也会在修复后恢复同步。

金融领域的系统安全一直是监管机构工作的重点。2013年6月,某大型国有银行在系统升级时也曾出现全国大面积瘫痪的情况,根据当时媒体报道,全国多地用户在登录网银系统时均出现了“登录失败,因系统原因暂无法获取当前交易结果”的提示,但是所有问题在1~2个小时内便处理好了,系统的回退也很快。即便如此,这次事故也被监管机构当作案例来反复“敲打”各家银行重视系统安全。对于涉足金融领域的蚂蚁金服来说,系统安全的问题当然也是重中之重。

从当天下午五时许到七时许,持续了两个小时左右的故障最终被排除,虽然时间不算长,但是由于支付宝在互联网金融领域的系统重要性,以及其独特的基于云计算的IT技术架构,这次故障仍备受关注。

各种报道铺天盖地,业界聚焦于这个问题,如果按金融机构系统灾备标准衡量,即使在出现光缆被挖断的情形下,系统的运行也应该正常无误,人们开始怀疑支付宝或者蚂蚁金服的金融安全能力是否真的如宣传般那么强大。同时,大家也在想,基于云计算的IT技术架构是否真的能够经受住金融级别的考验。

这样的担忧不无道理。支付宝底层的基础云平台架构,不仅支撑着支付宝,也是浙江网商银行的基础,未来还将输出给其他金融机构。对于有意成为互联网金融基础设施服务提供商的蚂蚁金服来说,系统的安全保障能力受到了外界更加严格的审视。

当天下午,程立在办公室里感受到了一种不同于以往的压力。作为蚂蚁金服的首席技术官,他需要不断去回应各种质疑,在支付宝和蚂蚁金服这么多年,大风大浪没少经历,账目三期、“双十一”的难关都遇到过,但与以往不同的是,这次程立不再是一线解决问题的业务骨干,而是技术方面的主管领导。程立说,这一次他体会到了在账目三期项目时邵晓锋等人的压力。

像当年邵晓锋他们那样,程立尽量不去打扰一线技术人员,让他们能够专注地恢复光纤和系统,而他更多的是做解释和说明的工作,同时也在不断复盘,想以后怎么去改进。

事后程立觉得,这次事件对于蚂蚁金服来说,既特别不幸,又特别幸运。

说不幸,是因为蚂蚁金服的外接光纤其实都是双光纤的,而被挖断的这根光纤恰好是同管的,之前公司已经排查出了这个问题,还要求运营商去整改,谁知正好在这个当口,刚好挖断了这节同管的光纤,当时蚂蚁金服的“异地多活”技术又恰好做到一半,深圳机房刚刚完成了切流,还有待演练将其夯实,所以,系统恢复的时间略长了一些,如果再过一段时间发生这个事情,交易就不会中断这么长时间。

说幸运,是因为这次事故给快速成长的蚂蚁金服敲响了警钟。程立说,在这个事故中,真正对主交易的影响只有一个多小时,类似的故障支付宝几乎每年都有,但是用户对2015年的那一次事故特别在意,这件事情让公司上下都看到了蚂蚁金服对用户、对整个社会越来越重要的影响。出了这件事情以后,公司在基础设施投入的时候会更加警觉,会将事情做得更加细致和彻底。

吸取了这件事情的教训,现在蚂蚁金服的技术团队每个月都会做几次演练,通过不断演练来锤炼自身的技术能力。程立告诉我,就在我们见面的当天凌晨还有一次演练。他相信,通过这样不断的演练,一定会锤炼出真正的能力。

在蚂蚁金服的业务越来越深度进入金融领域之后,作为首席技术官的程立将对风险的敬畏摆在了更高的位阶。

早些年时,程立认为,在支付宝做技术,有两个难题是一定要解决的:第一是让系统容量可以无限增长,因为过去公司总是担心下一年系统容量能不能持续增长;第二是希望系统可持续使用,即永远不会担心系统会宕机。从2015年“双十一”大促来看,第一个问题基本解决得差不多了,系统每天处理十亿笔、百亿笔、千亿笔,只要不断往里扩展资源就可以。接下来的目标就是让系统持续可用,这也是为什么蚂蚁金服在“异地多活”的架构上进行持续的投入和演练,目的就是让蚂蚁金服成为具备这个基础能力的平台。

“我作为一个首席技术官,可以什么事情都不做,但是有关风险的事情是我的头等大事。”程立说。在他的眼中,互联网金融的本质既有互联网也有金融,两方面的基因纠缠在一起,密不可分。在蚂蚁金服的产品和服务里,所有金融该有的属性它都有,风险是逃不掉的,挑战在于怎么对金融的风险能力有更深的理解。他要思考的是,在互联网情形下,怎样去理解创新背后的风险。

只看金融业务的风险还不够,当金融和互联网产生联系时,技术的风险也随之而来。蚂蚁金服为此特别成立了技术风险部,这在互联网公司中是绝无仅有的,这个部门专门去看在技术上有哪些风险,以及如何理解技术风险与业务风险的结合。

今天的蚂蚁金服已经具有系统重要级的影响,其对风险的重视程度与日俱增,相对于传统金融市场的信用风险和流动性风险,蚂蚁金服更需要防范的是技术风险。从公司内部角度看,如果支付宝出问题,整个集团就会遇到麻烦;从公司外部角度看,支付宝有几亿用户,涉及金钱时一出事就是大事,不仅可能伤及整个支付行业,也可能对上游产业造成影响,并最终影响老百姓的生活。

“创新是一个一百年的事情,如果不稳妥,一次事故所造成的影响就会非常大,所以要有一颗敬畏之心。”程立说。

[1] PB,计算机存储单位。1PB=1024TB。

[2] EB,计算机存储单位。1EB=1024PB。

[3] 面向服务的体系结构(Service-Oriented Architecture,SOA)是构造分布式计算的应用程序的方法。它将应用程序功能作为服务发送给最终用户或者其他服务。

[4] WS-Transaction是由BEA系统公司、IBM和微软开发的Web服务规范。WS-Transaction描述了一种协调类型,这种协调类型用于WS-Coordination中的可扩展协调框架。它定义了两个协调类型:原子事务(AT)为个人操作,以及业务活动(BA)为长期运行的事务。在构建要求分布式活动的结果达成一致的应用程序时,开发人员可以使用这些协调类型中的一种或两种。

[5] 见《湖畔大学三板斧:马云及阿里合伙人首次公开创业心法》之“彭蕾:阿里巴巴的人才观,阿里需要什么样的员工”,喜马拉雅App。