GTC18:英伟达与浪潮的AI攻守之道

郑凯 2018年03月29日 17:38

文/郑凯

曾经的那个NVIDIA似乎在GTC的十周年之际回来了,图形技术技术带来的震撼感觉,随着《星球大战》的展示让每个与会观众沉醉其中。

当然,对AI计算来说,今年的GTC再次刷新了金字塔尖上的那颗明珠,搭载16颗Tesla V100 32GB的DGX-2,号称是世界上最大的GPU诞生。在浪潮人工智能总经理刘军看来,NVIDIA如今的思路是,在AI最有挑战性的领域和最苛刻的场景重点去做产品优化,打造无人超越的核武器。

有意义的是,NVIDIA对GPU在高精尖技术上的付出,本质上也推动了整个AI生态环境的发展。最近两年都作为重要赞助商参与其中的浪潮,正是受益于AI计算的启动,获得了业务的全面发展,如何解读浪潮在AI计算上的攻与守?

进攻之道:顶级技术、顶级产品、顶级定位

总结这两年的GTC,可以看到浪潮在AI计算上有明确的进攻之道。

我们知道,浪潮将这几年的互联网行业称之为行业发展的主航道。那么,以BAT级别的互联网公司在过去十年,创造了云计算发展的行业基础。最近两年里,以GPU为代表的AI计算又成为了它们打造差异化竞争力的武器。这也意味着,AI计算至少是主航道中的支流,有望成为未来的主航道。

所以,浪潮以AI计算作为战略的突破口,明确了成为AI计算领导者的目标。在以GPU为主的GTC上做出进攻的姿态,也是情理之中。

去年的GTC,浪潮推出了性能世界第一的AI服务器AGX-2,在AI计算的产品端攀上了行业的顶峰,那么在3月27日,浪潮在GTC 2018上宣布其领先的AI服务器AGX-2将支持NVIDIA最新的Volta架构,配置32GB内存的NVIDIA Tesla V100 GPU加速器,内存容量比现有产品实现了翻倍。

客观的说,这是这次的性能提升只是基于TESLA V100采用32GB内存之后的一次正常的升级。但考虑到NVIDIA的DGX-2要在今年第三季度上市,目前优化后的浪潮AGX-2仍然是这个世界上性能最佳的AI服务器。

总结浪潮在AI计算上的战略攻势,刘军表示,“可以看到这两三年,AI产业的机会启动的比较明显,对浪潮来说,要做到有信心,有决心去投入。方法论上,我们第一会从整个AI计算的价值链去思考;第二,会结合客户对AI计算的痛点和需求来联合创新;第三,会把领先的AI客户创新的经验,去沉淀下来去赋能传统行业。”

正因为对AI计算有了明确的定位,浪潮才特别珍视和AI的领导者进行联合创新的机会,将其最大的价值做出体现。这就是浪潮为什么格外重视GTC大会的原因。

实际上浪潮与NVIDIA从产品研发阶段就是好伙伴,据刘军透露,“不仅在去年AGX-2产品发布前,两家公司就有研发上的互通,今年NVIDIA的DGX-2,在试验阶段,浪潮也有参与产品的设计。”

与世界顶级的AI技术公司联手,推出世界顶级的AI服务器产品,服务于中国最顶级的拥有AI需求的客户。这就是浪潮在AI计算上采取进攻之道的成果。

防守之道:应用场景的机会大有可为

当然,任何一个公司的策略必然有进攻也有防守。在领先的技术上摆出进攻的阵势,做到舍我其谁,让浪潮在中国AI计算领域成为了领军者,并在全球AI计算领域也有了极强的竞争力。

那么,针对具体应用场景的延展,行业优势的巩固和与客户更深层次的交流,就是浪潮在AI计算上的防守之道。

浪潮集团副总裁胡雷钧认为:“当下,面向特定应用场景设计专用的AI系统已成为未来相当一段时期内的发展趋势,这也是浪潮作为全球领先的AI计算厂商重点关注的产品技术创新方向。”

的确,AI在行业中落地的速度越来越快,通用型的产品显然无法满足客户在具体应用场景中的需求。浪潮今年的目标,就是瞄准重点行业AI转型的市场,为这个市场的用户来优化需求和设计产品,并做到针对性的交付。

所以在今年的GTC上,我们看到浪潮发布了专为智能视频分析优化设计的搭载了NVIDIATesla P4 GPU的AI服务器NF5280M5-V,可同时响应计算与存储的海量需求,为智慧城市、智慧交通、智慧安防等领域的用户提供了计算存储双优设计的AI计算平台。

这是一个针对智能视频分析应用场景的典型。刘军说,“这个产品诞生之初,浪潮就与很多客户提前做了需求分析,给出了在最小空间做到最大的存储量的产品。拿小区安防的场景为例,在96路高清的前提下,数据保存的周期只有几天,而应用到AI服务器NF5280M5-V之后,可以做到数据保存期长达半年。”

这个产品也印证了浪潮在AI服务器的维度上,切实做到了用户深耕。刘军说,未来浪潮还会针对更多的应用场景,来提供AI计算的服务。

防守不等于不会进攻,反而掌握好进攻和防守的尺度,做到攻与守的平衡,这才是浪潮在AI计算上做到的“攻守之道”。

攻守平衡,浪潮究竟哪里难以超越?

很多人有这样的疑问,基于NVIDIA的GPU,来搭建GPU服务器。为什么只有浪潮做到了领先?做到攻守平衡的秘诀究竟在哪里?

浪潮对客户的理解,始终基于客户需求来研发产品是个重要原因。因为AI服务器和通用服务器有很大不同。英特尔设定了标准化的框架,所以通用服务器基本大同小异比较接近。但AI服务器基于应用场景,根据需求设计的结果决定了AI服务器不会是通用产品。这是浪潮的优势之一。

在我看来,浪潮之所以能够取得今天的市场地位,与更早的投入AI计算的全链条有很大的关系。比如2015年的GTC,浪潮发布了首款高性能MPI集群版的Caffe深度学习计算框架,并开源公布所有代码。2017年的GTC,浪潮发布了人工智能深度学习训练集群管理软件AIStation。实现了对计算集群的CPU、GPU资源进行统一的管理、调度及监控。所以,浪潮已经形成了从硬件、软件和系统层面端到端的能力。这是浪潮独有。

更早更全面的布局,又让浪潮踩上了AI需求爆发的风口。令刘军也没有想到的是,去年发布的AGX-2,这么高端的AI服务器,在整个2017年都处于供不应求的状态,“可以讲目前很对客户很看好AI计算提供的颠覆性商业模式的作用,像AGX-2这样的高性能的产品,可以最大程度上缩短AI开发的周期,AI算法模型是需要迭代的,性能越高意味着迭代越快。”正是因为浪潮最早发布了AGX-2这样的产品,才获得了最快速的需求信息,进而推动了自身AI计算发展节奏的变快。

AI计算的攻守之道,被浪潮表现得淋漓尽致。

 

推荐文章