本文聚焦于全球AI产业从“模型军备竞赛”向“应用落地厮杀”的转变,以DeepSeek R1的爆火为切入点,深入探讨了AI算力“下半场”推理需求的爆发趋势。同时,介绍了GMI Cloud作为领先的AI Native Cloud服务商,在应对算力需求变化方面的举措和优势,以及其对AI出海生态的影响。
图片来源:元宝
近年来,全球AI产业经历了一场深刻的范式转移,从曾经激烈的“模型军备竞赛”,逐步过渡到如今残酷的“应用落地厮杀”。当ChatGPT掀起的大模型浪潮渐渐退去,行业开始清晰地意识到,仅仅训练出拥有千亿参数的模型,不过是万里长征的第一步。如何让AI在真实的交互场景中实现高效推理,并为企业和社会创造实实在在的价值,才是决定未来发展走向的关键所在。
2025年春节期间,DeepSeek R1在AI圈引发了一场轩然大波。它就像一面镜子,向我们揭示了一个既残酷又充满希望的真相。一方面,AI技术的全球化发展,不再单纯依赖于“更大的模型”,而是取决于能否将推理能力转化为一种可移植、可代谢、可进化的“商业基因”。这种“商业基因”就如同企业的核心竞争力,能够帮助企业在激烈的市场竞争中脱颖而出。另一方面,DeepSeek多次出现“暂时无法响应需求”的情况,也给我们敲响了警钟:想要持续拥有这个宝贵的“商业基因”,企业还需要有充足且稳定的算力支持。算力就像是AI发展的“燃料”,没有足够的“燃料”,AI这架“飞机”就无法飞得更高更远。
与此同时,中国AI企业正掀起一股汹涌的出海热潮。当国内市场的算力消耗战陷入零和博弈,企业在国内市场的发展空间越来越狭窄,出海的边际收益已远超内卷所带来的苟且红利。然而,在算力成本持续高企、地缘政治博弈不断加剧的背景下,这场“推理革命”与“出海远征”的双重战役,正将AI企业推向一个新的战略拐点。在这个关键节点上,AI企业需要做出正确的战略决策,才能在全球市场中占据一席之地。
近日,GMI Cloud亚太区总裁、前阿里云资深总监King Cui接受了钛媒体创投家的独家访谈。在访谈中,他围绕AI算力的“下半场”及推理需求的爆发趋势,进行了深入而细致的探讨。
据悉,当全球市场对年初上线的DeepSeek – R1需求急剧增加时,GMI Cloud技术团队迅速行动起来,第一时间完成了基于英伟达H200 GPU部署的DeepSeek R1满血版,并构建了专属DeepSeek R1的推理端点。要知道,H200在官方测试中展现出了卓越的性能,每秒最多可处理3872个Token。这意味着GMI Cloud部署的DeepSeek R1在大模型推理性能上实现了大幅提升。所以,一经上线,GMI Cloud北美团队的电话就被打爆,充分显示了市场对其高性能推理服务的迫切需求。
GMI Cloud由Google X的AI专家与硅谷精英共同创立,是一家处于领先地位的AI Native Cloud服务商。它拥有覆盖全球的数据中心网络,能够为客户提供高效、稳定的云计算服务。作为近期晋升为全球TOP10的NCP(NVIDIA认证云计算合作伙伴)之一,GMI Cloud具备在公开市场之前获取充足H200芯片的优势。这一优势也成为其率先完成R1部署的重要因素,使其在市场竞争中占据了先机。
2024年10月,GMI Cloud成功完成A轮融资,筹集了8200万美元。这笔资金主要用于科罗拉多州数据中心的H200建设。在DeepSeek R1爆火之后,GMI Cloud该数据中心的H200算力资源需求订单爆满。据钛媒体创投家独家消息,GMI Cloud即将完成新一轮大规模融资,进一步扩展其算力布局,以满足市场不断增长的需求。
此外,在近日正在举办的2025英伟达GTC大会上,GMI Cloud将正式发布面向推理云服务的产品——Inference Engine,旨在满足不同行业客户不断增长的推理计算需求。
以下为钛媒体创投家与King对话全文,略有删减:
钛媒体创投家:咱们可以先聊聊部署基于H200的DeepSeek R1满血版这件事的难点和意义?
King:我们在北美有充足的H200储备,所以技术团队才能够基于H200构建Deep Seek R1的满血版。相较于国内市场常见的低算力显卡,H200展现出显著的性能优势,单个英伟达HGXH200系统上,每秒最多可处理3872个Token。然而,真正的挑战在于如何最大化发挥H200的算力优势,从而大幅提升大模型的推理能力。
整个春节期间,GMI Cloud北美团队都没有怎么休息,对软硬件系统进行了深度优化。与开源技术版本相比,优化后的R1在推理性能上实现了数倍提升,模型推理能力大幅增强。这种性能差距也成了我们区别于其他厂商的核心竞争力。
这次部署成功的意义在于,让我们能够快速在北美、亚太、欧洲等多个数据中心,以H200为基础部署R1推理服务。这一布局确保了全球各区域的AI出海企业能够在本地就近接入高性能、稳定的R1推理服务,以满足日益增长的推理计算需求。
钛媒体创投家:您怎么看“AI的下半场是推理”这种说法?
King:我非常认同“AI的下半场是推理”这一观点。根据我的判断,2025年AI生态的应用端将迎来大规模爆发,“下半场”的重点将从过去的训练(Training)逐步转向推理(Inference)。
推理需求爆发的核心条件有三点:
第一,基础模型的能力正在高速迭代。从过去两年的技术发展程度来讲基本上每3 – 6个月模型的能力就会提升一个台阶。从SuperCLUE(中文通用大模型综合性能评测基准网)来看,过去这两年,整体模型能力的上限已从两年前的40分提升至80分以上,相当于从“小学生水平”跃升至“博士生水平”,这也为AI进入推理时代奠定了基础。
第二,开源生态的繁荣催生了大量开发者。国内如DeepSeek、通义千问等头部大模型的开源生态正处于高速发展阶段,已聚集了大量开发者,而开发者数量的激增正是应用侧爆发的关键。
第三,单位推理成本的降低推动了AI应用普及。以DeepSeek为例,其极大降低了推理成本,使AI推理能力真正具备大规模商用的可行性。
2024年全球AI原生应用的月活已经达到1.2个亿,相比2023年底增长了230%;AI应用的内购收入达到33亿美金,同比增长了50%。可以看到,从应用数量、用户规模,到内购收入,各个维度都在保持高速增长。而支撑这一增长的核心,正是模型厂商所提供的大量推理计算资源。
我个人判断,从2025年开始,整个GPU算力市场的“推理需求”会大于“训练需求”。
2024年初,AI市场的算力保有量和需求量中,训练(Training)与推理(Inference)的比例约为9:1,大量的AI模型公司都在买GPU或租GPU进行训练,导致训练需求极为庞大。
我当时做过一个预测“到2026年底,训练和推理的算力保有量和需求量会发生一个逆转,变为1:9,即全行业对推理算力的需求和保有量将是训练的9倍以上。”从目前的发展趋势来看,这一变化正在迅速实现,推理需求已成为AI算力市场的主导力量。
钛媒体创投家:DeepSeek之后,AI企业对于算力的诉求发生了怎样的变化?
King: 有人说DeepSeek的爆火对于算力市场是利空,我却不这么认为。相反,从短中长期来看,这对于整个算力市场,尤其是GPU算力服务行业而言,都是一个重大利好。
回到您这个问题,可以三个方面来看,首先是对基础模型研发的厂商来说,DS的能力表现以及开源,对他们的刺激是很大的,但是好消息是DS的深度开源,给了行业一条明确的实践路径,也就是通过强化学习的方式能够有效的提升模型能力,因此各个模型厂商都会沿着这条路径来继续提升模型能力,所以他们对Pre – Training的算力需求还是会持续增长,只不过Pre – Training的整体算力市场增速会下降很多。
第二个方面,随着开源的基础模型能力达到“博士生”水平后,很多垂直行业大模型开始涌现,尤其是在DeepSeek今年又带动了模型厂商走向更全面更深度的开源,这样很多企业会基于优秀的开源基座模型去做自己垂直行业的业务模型,这种单个垂直模型的Post – Training集群算力需求不会像Pre – Training那么大,但是千行百业,垂直模型的数量会很多,因此Post – Training的整体算力市场增速会大于Pre – Training;
第三个方面,随着模型的能力越来越强,推理的成本越来越低,AI应用企业的ROI有望打正,这将激发更多的AI应用企业的涌现,这也意味着那些提供模型即服务(MaaS)的厂商会有更多的Inference算力的需求。而这部分Inference算力市场的增速会远大于前两个市场。
钛媒体创投家:AI的下半场对算力的追求,是否从单纯的算力堆叠转变为高效灵活的配置需求?即软件大于硬件?
King:大颗粒度对比来看,我认同您的这个说法。
相比训练来说,推理是要直接面向终端用户服务的,对服务的要求会更高,需要GPU云平台能够提供及时响应、弹性扩展、高稳定性的推理服务,这都需要从软件层结合硬件特性去做深度的优化,包括跨集群甚至跨地区的推理算力的灵活调度、根据硬件特性和模型结构在推理框架层面进行推理性能的深度优化、以及对推理服务的全面的主动监控,和自动容错来保障服务稳定性等,这些都需要既懂AI算法又懂工程优化的技术团队来进行持续优化。
具体来说,现在多数AI应用都是服务全球的用户,那么当AI应用一夜全球爆火,就需要推理服务能够根据用户地区分布来进行全球自动扩容,以保障涌进来的用户都能有较好的体验,这对用户体验和用户留存来说是非常关键的。
钛媒体创投家:我们知道GMI Cloud主要服务AI出海企业,对于算力服务的需求变化给AI出海生态带来了怎样的连锁反应呢?
King:是的,GMI Cloud主要服务全球的AI企业,涵盖您说的中国AI企业出海。我们认为,国内的移动互联网生态体系已经非常固定了。如果还在国内做移动互联网,流量天花板已经非常明显。在个人开发者和创业公司主导的时代,中国的应用技术在全球范围内依然保持领先。
相比之下,海外市场仍然是一片广阔的蓝海,AI企业多年在国内市场厮杀积累的工程化能力、场景打磨经验、极致成本控制,恰是新兴市场最稀缺的“数字基建基因”。中国AI企业不是带着解决方案而出海,而是带着将技术分解重组的能力在海外重新定义AI应用。
DeepSeek的火热极大地加速了AI出海生态的繁荣。我们发现,许多海外创业企业从Llama – 3迁移到DeepSeek,同时,越来越多基于DeepSeek搭建自有模型的AI Agent企业也在迅速崛起。
所以我坚定地相信,DeepSeek的爆火必会加速中国企业,尤其是AI出海创业走向更大的繁荣。
钛媒体创投家:GMI Cloud在策略和产品上是如何应对当下AI企业对于算力需求的变化呢?
King: GMI Cloud有一款产品叫Cluster Engine,最初是为满足企业客户在模型训练方面的需求而推出的。到了2024年10月,我们内部的高管团队做一次对未来行业趋势的推演,得出一个判断,未来市场将全面转向推理。因此,在那次会议上,我们决定立项做一个面向推理云服务平台的全新产品Inference Engine。
到目前为止,我们全球所有技术团队已经花费了五个月的时间来研发和打磨这一产品。未来,我们会在维持和强化Cluster Engine的基础之上,重点发力推广面向推理云服务平台的Inference Engine。
我们在英伟达GTC 2025大会上发布Inference Engine的正式版本,并以我们深度优化过的Deep Seek R1推理服务为案例,展示GMI Cloud在软硬件深度优化方面对推理模型性能的显著提升。
钛媒体创投家:作为NCP全球排名TOP10,除了在产品上能够优先拿货之外,还有什么优势吗?
King: GMI Cloud作为英伟达认证的云计算合作伙伴NCP,并且是NVIDIA Preferred级别的Partner,在亚太地区拥有高端GPU绝对优先的分配权,我们在2024年10月宣布的8200美金融资中,引入了一家GPU OEM厂商作为我们的股东,这也使得我们在GPU供应链方面相比其他厂商具有明显的优势。
除了硬件资源的优势外,我们还与英伟达的技术工程师团队保持深度紧密的交流。GMI Cloud的总部也在美国硅谷,距离英伟达总部非常近,双方的工程师团队基本每两周就会进行一次技术交流,探讨最新的GPU集群优化技术。进而提升了我们在AI算法软件方面的优势。
最近,我们拿到了最新的B200 GPU,也在忙着与客户做POC。B200在训练和推理方面的表现和性价比,都远超H200。
钛媒体创投家:GMI Cloud是否有进一步的融资计划?
本文围绕全球AI产业从模型竞赛向应用落地的转变,深入剖析了推理需求爆发的趋势。以GMI Cloud为例,阐述了其在应对算力需求变化方面的举措,包括基于H200部署DeepSeek R1、研发Inference Engine等。同时,指出中国AI企业出海的机遇与挑战,以及DeepSeek对AI出海生态的促进作用。随着AI下半场推理需求的主导地位日益凸显,企业需注重算力的高效配置和软件优化,以在全球市场竞争中占据优势。
原创文章,作者:modesty,如若转载,请注明出处:https://www.qihaozhang.com/archives/698.html