客戶至上
電話:15378180513
聯(lián)系人:
郵箱:3511891@qq.com
官網(wǎng):http://byzgrb.cn
一位服務器渠道銷售人員處得知,搭載英偉達A800 GPU的熱門AI服務器型號的價格已達140~150萬元/臺,比今年6月上漲超40%;搭載8顆英偉達H800 GPU的AI服務器價格上漲則更離譜,幾天內漲了大幾十萬,逼近280萬元/臺,漲幅超10%。
自“百模大戰(zhàn)”打響以來,國內AI服務器產(chǎn)業(yè)可謂冰火兩重天。
一邊,大模型浪潮帶來了AI服務器需求暴增。 互聯(lián)網(wǎng)云大廠、AI大模型企業(yè)以及行業(yè)公司需紛紛砸錢投入。不僅中國電信這樣的ICT龍頭近期定下超80億元的AI算力服務器采購項,就連“味精大王”蓮花健康這樣的跨界玩家也橫插一腳,近日剛剛豪擲7億元購入GPU服務器。
另一邊,海量需求難敵供給不足。 熱門AI服務器型號售價翻數(shù)倍,近300萬一臺卻有價無市。包括浪潮信息、新華三、寧暢、聯(lián)想、工業(yè)富聯(lián)等多家頭部廠商推出了大模型新機,但什么時候能排上單?這個問題恐怕要打上一個大大的問號。
AI服務器對大模型的重要性不言而喻。如果把大模型比作一個需要靠吃大量數(shù)據(jù)長大的孩子,那AI服務器就是決定孩子能不能吃好的大廚。“百模大戰(zhàn)”本質上也是一場AI服務器之爭。
作為上接芯片大廠、下連大模型企業(yè)的承上啟下角色,中國服務器廠商如何破局?這也成為我國大模型產(chǎn)業(yè)發(fā)展的一個重要議題。
01.大模型浪潮下的AI服務器生意:價格飛漲、紅海在望、客戶破圈
“之前是服務器不好賣,現(xiàn)在反過來是客戶求著買!”一位頭部服務器廠商代理銷售員告訴智東西,“漲價倒是次要的,很多客戶已經(jīng)不在意多個幾萬,現(xiàn)在是明顯的賣方市場,簽單后不完全保證交貨是時間點,但也不會承諾違約金。”
AI服務器是異構服務器,其核心的芯片可有不同的組合方式,包括CPU+GPU、CPU+TPU、CPU+其他加速卡等。相比于通用服務器,AI服務器更適應AI訓練和推理的大算力、高并發(fā)、大數(shù)據(jù)流轉等需求,已經(jīng)成為大模型時代的“香餑餑”。
以熱門AI服務器型號浪潮NF5688M6服務器為例, 某代理商在電商平臺上掛出125萬元的價格,這款搭載8顆A800 GPU的服務器今年5月時還是105萬元,但即便是這個高出近20%的價格,也是缺貨狀態(tài)。另一家有貨的網(wǎng)店NF5688M6標價則逼近160萬元,銷售人員告訴智東西,現(xiàn)貨145萬元能拿到,但目前手上只有2臺,更多則需要搭配選擇寧暢、超微等其他品牌機器。
基于H800 GPU的AI服務器有一批新貨,但我們當一問價格,店家都直呼離譜,幾天里漲了大幾十萬。 前段時間價格再高也不過250萬元,現(xiàn)在得280萬元才能拿下。反應慢點的銷售渠道,則是一夜間改口,直線漲價30萬元。
對于今年的行情,服務器廠家、代理渠道頗有受寵若驚的感覺,一位服務器廠家人員對智東西感嘆:“每一次以為算力要成「紅?!沽?,它又出現(xiàn)無限的「藍海」?!?/span>
這片「藍?!够镜玫搅烁邔拥摹吧w章”。 10月8日,工信部等六部門聯(lián)合印發(fā)《算力基礎設施高質量發(fā)展行動計劃》,計劃提出,到2025年我國算力規(guī)模超過300EFLOPS(300百億億次浮點運算/秒),智能算力占比達到35%。而對比中國信通院數(shù)據(jù),截至今年6月底我國算力規(guī)模達197EFLOPS,其中智能算力占比達25%。
這意味著,智能算力量化指標提升超110%,預計將會有約56EFLOPS的智能算力增量市場。
服務器龍頭企業(yè)浪潮信息的相關負責人告訴智東西 :“以大模型為代表的AIGC技術加速發(fā)展,給AI計算帶來空前機遇。豐富的應用場景和對技術創(chuàng)新迭代的熱忱,讓中國市場對于AI服務器的關注度和需求量均明顯增長,并可能在未來幾年繼續(xù)保持高速增長?!?nbsp;
根據(jù)知名行研機構IDC此前的報告,2023年上半年加速服務器市場規(guī)模達到31億美元,同比2022年上半年增長54%;中國加速服務器到2027年市場規(guī)模將達到164億美元(約合1198.84億元人民幣)。
布局智能算力「藍?!梗瑓R聚AI服務器集群的智算中心是一大抓手。 如下圖所示,在2023年3月-10月,全國已有超10座超大型智算中心已開工或啟用,均衡分布在全國各地。大部分已啟用的智算中心正在邊用邊擴容,都將擴大對AI服務器的需求。
究其背后的推進者,互聯(lián)網(wǎng)云大廠、運營商、AI大模型企業(yè)以及行業(yè)龍頭也都卷進來了,向服務器廠商接連拋出億級訂單。
頭部服務器廠家新華三的相關負責人告訴智東西 :“「百模大戰(zhàn)」深入推進,使得越來越多的企業(yè)、研究機構和開發(fā)者開始使用深度學習技術,推動了對AI服務器的需求。訓練和推理階段對于深度學習任務需要大量的計算資源,而AI服務器能夠提供高性能的異構計算能力,滿足這樣的需求?!?nbsp;
近日,中國電信AI算力服務器(2023-2024年)集中采購項?已完成對投標?件的評審,合計采購4175臺訓練服務器,總額約84.63億元,超聚變、浪潮信息、新華三、寧暢、中興、烽火、聯(lián)想以及幾家華為代理商等廠商都入圍了。
巨浪之下,就連“味精大王”蓮花健康這樣的跨界選手也在大購AI服務器。根據(jù)其9月28日一筆采購合同,新華三將向蓮花科創(chuàng)交付330臺英偉達H800 GPU系列算力服務器(每臺服務器含8塊GPU),合同總價為6.93億元。
可以看到,無論是動輒幾十P級別的智算中心,還是一出手就是數(shù)億、數(shù)十億的訂單,都讓服務器產(chǎn)業(yè)的生意人不再愁賣貨。大模型浪潮下AI服務器生意價格飛漲、紅海在望、客戶破圈,將AI服務器廠商推向一片掘金地帶。
02.
服務器廠家扎堆發(fā)大模型新品單接不過來、排產(chǎn)到明年
“有一半單子都是AI服務器,是傳統(tǒng)服務器的兩倍不止。”一位頭部服務器廠商的人士告訴智東西,“AI服務器還會緊俏很一陣子,推理機的需求還沒真正釋放,不少客戶今年買推理機也是試試水,明年可能會更大力投入?!?/span>
看準大模型這一長期賽道,反應較快的服務器廠商都已經(jīng)面向大模型推出了硬件新品。
與此前的專用小模型相比,大模型訓練對服務器提出了眾多新需求。 這不僅包括高性能算力、大數(shù)據(jù)存儲、更多框架適配,還包括更高的數(shù)據(jù)傳輸效率、更優(yōu)的斷點修復力、AI算力集群的調度管理能力等,這都促進服務器廠商推出大模型訓練和推理新機器。
“深度學習模型逐漸變得龐大而復雜,需要更高的計算能力,推動AI服務器不斷提高性能,采用強勁的AI加速卡,以及更高的帶寬和更大的容量?!?span style="box-sizing: border-box; margin: 0px; padding: 0px; border: 0px; font-style: inherit; font-variant: inherit; font-weight: 600; font-stretch: inherit; font-size: inherit; line-height: inherit; font-optical-sizing: inherit; font-kerning: inherit; font-feature-settings: inherit; font-variation-settings: inherit; vertical-align: baseline; -webkit-font-smoothing: antialiased; word-break: break-word;">新華三相關負責人告訴智東西,“為了滿足深度學習任務的需求,AI服務器推動了許多設計創(chuàng)新。例如,為了提高服務器的計算密度和效能,AI服務器的散熱和功耗管理,以及綠色數(shù)據(jù)中心的構建也成為設計的重要考慮因素。”
新華三于今年6月就推出了面向大模型的AI服務器H3C UniServer R5500 G6,據(jù)稱相較上一代產(chǎn)品算力提升3倍,對于GPT-4大模型訓練場景訓練時間縮短70%。
作為AI服務器市場份額連續(xù)五年第一的行業(yè)龍頭,浪潮信息也于9月21日升級推出最新NF5468系列AI服務器,大幅提升了Llama等大模型的微調訓練性能;為了實現(xiàn)全局最優(yōu)性能、能效或TCO,需要產(chǎn)業(yè)鏈需協(xié)同。浪潮信息自2019年起主導OAM(開放計算項目加速器模塊)標準制定并與芯片廠加速適配,最近則發(fā)布了新一代的OAM服務器NF5698G7,全PCIE Gen5鏈路,H2D互聯(lián)能力提升4倍。
浪潮信息相關負責人說,大模型對AI服務器的性能和功能提出更高的要求,考量的不僅僅是單一芯片或單一服務器,絕大多數(shù)情況最終部署的形式是包含計算、存儲、網(wǎng)絡設備,軟件、框架、模型組件,機柜、制冷、供電、液冷基礎設施等在內的一體化高集成度的智算集群。
以聯(lián)想為代表的老牌服務器廠商,更是舉全公司戰(zhàn)略布局AI大模型時代。今年8月,聯(lián)想推出兩款全新AI服務器產(chǎn)品——聯(lián)想問天WA7780 G3 AI大模型訓練服務器、聯(lián)想問天WA5480 G3 AI訓推一體服務器;與此同時,聯(lián)想首次對外發(fā)布“普慧”AI算力戰(zhàn)略,提出將100%算力基礎設施產(chǎn)品支持AI,50%基礎設施研發(fā)投入在AI領域等戰(zhàn)略舉措,并推出了聯(lián)想智算中心解決方案和服務核心產(chǎn)品。
聯(lián)想集團副總裁、中國區(qū)基礎設施業(yè)務群服務器事業(yè)部總經(jīng)理陳振寬在當時提到,以AI為導向的基礎設施要依據(jù)AI數(shù)據(jù)和算法的特性而設計和優(yōu)化,包括AI數(shù)據(jù)的“向量、矩陣或多維數(shù)組的形式”、“數(shù)據(jù)噪音多”等特征,以及AI算法“巨大規(guī)模并行計算和矩陣計算”、“容忍低精度浮點或量化整數(shù)”等特征,都需要被考慮在內。
雖然服務器廠商你追我趕地推出大模型新機,但能夠第一時間拿到真機的人仍是少數(shù)。有多家大模型服務器新品都采用8顆H800、A800或L40S GPU。相關廠家負責人告訴智東西,AI服務器新品已不接單,之前說要排單到6個月后,現(xiàn)在看是12個月之后。
即便如此,服務器廠商仍加快從軟件到生態(tài)的一盤棋布局。
浪潮信息相關負責人告訴智東西,不同于傳統(tǒng)的小模型,大模型能力來源于大量工程實踐經(jīng)驗。因此,當眼前的算力資源稀缺在明年逐漸被解決,算力之下的算力效率是另一個難解的命題。
以預訓練階段為例,首先,AI大模型的演化對于集群的并行運算效率、片上存儲、帶寬、低延時的訪存等提出了較高需求,萬卡AI平臺的規(guī)劃建設、性能調優(yōu)、算力調度都是很難解決的難題;其次,大規(guī)模訓練普遍存在硬件故障、梯度爆炸等小規(guī)模訓練不會遇到的問題;再次,工程實踐方面的缺乏導致企業(yè)難以在模型質量上實現(xiàn)快速提升。
為此,浪潮信息除了在硬件布局,還在軟件算法加快全棧能力覆蓋。其最新推出了OGAI (Open GenAI Infra)“元腦生智”,這是其于8月24日推出的大模型智算軟件棧,據(jù)稱可為大模型業(yè)務提供AI算力系統(tǒng)環(huán)境部署、算力調度保障及模型開發(fā)管理能力,助大模型企業(yè)解決算力的系統(tǒng)全棧問題、兼容適配問題、性能優(yōu)化問題等。浪潮信息自2019年牽頭發(fā)起元腦生態(tài)計劃,聚合具備AI開發(fā)核心能力和行業(yè)整體方案交付能力的伙伴。
新華三相關專家也認為,百模大戰(zhàn)推進使得大規(guī)模的AI服務器集群需要進行有效的管理和部署。為了管理和部署這些服務器,需要使用高效的集群管理軟件和自動化工具,以確保服務器的高可用性、高性能和高效率。
為此,新華三從使能平臺、數(shù)據(jù)平臺、算力平臺著手,打造AIGC整體解決方案。8月,新華三私域大模型百業(yè)靈犀(LinSeer)在中國信通院組織的大模型標準符合性驗證中,實現(xiàn)了模型開發(fā)模塊被評為4+的國內領先水平。此外,新華三也加強與頭部互聯(lián)網(wǎng)公司合作,探索私域模型與通用模型深度融合。
另外,廠商們還爭相推出行業(yè)報告、標準及指南,希望掌握話語權。
比如浪潮信息發(fā)布了《開放加速規(guī)范AI服務器設計指南》,面向AIGC細化完善了從節(jié)點到集群間的AI芯片應用部署全棧設計參考;寧暢在積極發(fā)新的同時,積極參與AI服務器研究項目,參與編寫了《AI服務器白皮書》。
可以看到,大模型及AIGC技術加速發(fā)展,給AI計算帶來空前機遇的同時,也帶來了巨大的挑,需從硬件、軟件和算法、生態(tài)等多層面應對。
AI服務器是各服務器廠商的必爭之地,是藍海爭奪之戰(zhàn),更是生存之戰(zhàn)。
仍以行業(yè)龍頭浪潮信息為例,其2023年上公司實現(xiàn)營業(yè)收入247.98億元,同比下降28.85%;歸母凈利潤3.25億元,同比下降65.91%。隨著傳統(tǒng)通用服務器市場增量有限,如何把握大模型機遇下的智能算力機遇,獲得更大的市場,成為服務器廠商實現(xiàn)新跨越的關鍵一步。
有價無市,是AI服務器需求爆發(fā)的另一面,究其背后原因,還是供應鏈供應不足。
英偉達通過向中國市場供應降低了互連速度的“閹割版”旗艦計算芯片A800和H800,來適應此前的限制規(guī)則。而新規(guī)的變化可能會沖擊英偉達A800和H800的銷售,AMD、英特爾等預計也可能受到新規(guī)的影響,這無疑加劇了國內AI服務器的供應鏈困難。
多位業(yè)內人士告訴智東西,過去很長時間里,國內外知名大模型大多數(shù)是基于GPGPU訓練而來,占到90%左右,只有10%是基于其他的ASIC芯片。而GPGPU,又基本以英偉達的A100、A800、H100、H800效率最高。
實際上,基于供應受限的背景,服務器龍頭們過去半年來一邊繼續(xù)做GPU服務器的開發(fā),另一方面紛紛采取開放架構,兼容國產(chǎn)自主創(chuàng)新芯片。 比如浪潮信息就推出了開放加速計算架構,據(jù)稱具有大算力、高互聯(lián)和強擴展的特點?;诖?,浪潮信息發(fā)布了三代AI服務器產(chǎn)品,和10余家芯片伙伴實現(xiàn)多元AI計算產(chǎn)品落地,并推出AIStation平臺,可高效調度30余款AI芯片。
還有一些服務器廠商則繞過GPGPU路線,另辟蹊徑從自主創(chuàng)新硬件落地AI服務器。
比如,8月15日,科大訊飛與華為聯(lián)合發(fā)布了訊飛星火一體機。星火一體機基于鯤鵬CPU+昇騰GPU,采用華為存儲和網(wǎng)絡提供整機柜方案,F(xiàn)P16算力達2.5 PFLOPS。對比來看,在大模型訓練中最為流行的英偉達DGX A100 8-GPU,可以輸出5PFLOPS的FP16算力。
據(jù)第一財經(jīng)報道,星火一體機很可能使用的是華為尚未官方對外發(fā)布的昇騰910B AI芯片,很可能是對標A100。而從華為已對外公布的Atlas系列服務器產(chǎn)品來看,目前已涉及等多款推理機和訓練機,所用到的昇騰910已經(jīng)略超A100 80GB PCIe版本,在盤古、訊飛星火等特定大模型場景中實現(xiàn)替代。
不過,智東西從產(chǎn)業(yè)鏈得知,當下昇騰910更適用于自身生態(tài)中的大模型,與其自有的MindSpore等開發(fā)框架像配合,通用性尚且不足。其他模型如GPT-3,則需要深度優(yōu)化后才能再華為平臺上順暢運行。盡管訊飛等大模型廠家與其達成合作,但很多工作可能才剛剛開始。
除此之外,從業(yè)內人士處獲悉,海光信息已獨立研發(fā)兩代DCU深算系列產(chǎn)品,并規(guī)?;慨a(chǎn),產(chǎn)品性能領先,可較好的支持通用大模型的訓練推理工作。還有芯片創(chuàng)企如寒武紀、摩爾線程、壁仞科技、沐曦等也已經(jīng)可以向AI服務器廠商供貨。盡管一些公司受到影響,但更明晰的局勢客觀上為他們加速推進產(chǎn)品迭代和落地提供了動力。
總的來說,服務器廠商主要是兩手準備,抵御產(chǎn)業(yè)鏈緊缺風險。而業(yè)內人士告訴智東西,由于大多數(shù)AI芯片創(chuàng)企是去年下才開始研發(fā)面向大模型AI芯片,因此目前在芯片架構、軟件配套等方面可能仍不成熟,但通過更快的迭代節(jié)奏,國產(chǎn)AI芯片有望在今年底或明年撐起一部分AI服務器需求。
隨著大模型向千行百業(yè)落地,部署AI算力已成為算力基礎設施的重要發(fā)展方向。IDC報告顯示,隨著生成式AI應用的爆發(fā),各行業(yè)對智算的需求首次超過通用算力,AI算力已成為算力發(fā)展的主要方向,成為“東數(shù)西算”發(fā)展新的強勁動力。
服務器產(chǎn)業(yè)和廠商是智能算力建設中的重要一環(huán)。我們看到,當下國內服務器市場出現(xiàn)了價格飛漲、紅海在望、客戶破圈的盛況,同時也面臨著供應鏈短缺、供需失衡的嚴峻風險。百模大戰(zhàn)關口,AI服務器廠商走到了產(chǎn)業(yè)鏈疏通力的驗證時刻。能否在抵御供應鏈風險的同時,與上下游伙伴形成強力聯(lián)盟,成為AI服務器廠商破局的一個關鍵。
Copyright ? 2024 達銳斯科技 川公網(wǎng)安備 51010802000119號
XML地圖
蜀ICP備2020034250號-1 技術支持: 網(wǎng)站模板