人物專訪監(jiān)管
制造芯片
6G運(yùn)營(yíng)
大數(shù)據(jù)物聯(lián)網(wǎng)
移動(dòng)互聯(lián)網(wǎng)量子
云計(jì)算互聯(lián)網(wǎng)
報(bào)告衛(wèi)星

從1920TPS到2400TPS,華為云Tokens服務(wù)全面接入384超節(jié)點(diǎn)
2025年8月27日,在第四屆828 B2B企業(yè)節(jié)開(kāi)幕式上,華為云宣布其Tokens服務(wù)全面接入CloudMatrix384超節(jié)點(diǎn),通過(guò)xDeepServe架構(gòu)創(chuàng)新,單芯片最高可實(shí)現(xiàn)2400TPS、50msTPOT的超高吞吐、低時(shí)延的性能,超過(guò)業(yè)界水平。
發(fā)揮“大雜燴”優(yōu)勢(shì),以系統(tǒng)能力打造先進(jìn)算力
過(guò)去18個(gè)月,中國(guó)AI算力需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)顯示,2024年初中國(guó)日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已突破30萬(wàn)億,1年半的時(shí)間增長(zhǎng)了300多倍,反映了我國(guó)人工智能應(yīng)用規(guī)模快速增長(zhǎng),也對(duì)算力基礎(chǔ)設(shè)施的需求提出了更大的挑戰(zhàn)。
在以往按卡時(shí)計(jì)費(fèi)的基礎(chǔ)上,今年3月,華為云正式推出了基于MaaS的Tokens服務(wù)。針對(duì)不同應(yīng)用、不同場(chǎng)景的性能和時(shí)延要求,還提供了在線版、進(jìn)線版、離線版乃至尊享版等多種服務(wù)規(guī)格,為大模型、Agent智能體等AI工具提供了更為靈活、便捷、低成本的先進(jìn)算力。
而這一次,華為云的Tokens服務(wù)正式接入CloudMatrix384,并通過(guò)384原生的xDeepServe框架再次實(shí)現(xiàn)了吞吐量的突破,從年初的1920TPS提升至2400TPS,TPOT僅為50ms。

大算力的構(gòu)建不是單點(diǎn)突破,而是一個(gè)從硬件到軟件、從算子到存儲(chǔ)、從推理框架到超節(jié)點(diǎn)的全棧創(chuàng)新,充分依托了華為的“大雜燴”能力。
首先,CloudMatrix384 超節(jié)點(diǎn)以全新的計(jì)算架構(gòu)創(chuàng)新,突破性能瓶頸,構(gòu)筑穩(wěn)固澎湃的算力根基; CANN昇騰硬件使能,優(yōu)化算子與高效通信策略,讓云端的算力能夠以最高效的方式被調(diào)用和組合;EMS彈性內(nèi)存存儲(chǔ)打破AI內(nèi)存墻,突破性地實(shí)現(xiàn)“以存強(qiáng)算”, 徹底釋放了每一顆芯片的算力;xDeepServe 分布式推理框架則以極致分離架構(gòu)Transfomerless讓超節(jié)點(diǎn)釋放出更高效算力。
“拆掉”Transformer,xDeepServe全面激發(fā)算力潛能
作為CloudMatrix384 超節(jié)點(diǎn)的原生服務(wù),xDeepServe以Transformerless 的極致分離架構(gòu),把MoE大模型拆成可獨(dú)立伸縮的 Attention、FFN、Expert三個(gè)微模塊,相當(dāng)于在一臺(tái)CloudMatrix384上把“大模型”拆成“積木”,并分派到不同的NPU上同步處理任務(wù)。之后,再用基于內(nèi)存語(yǔ)義的微秒級(jí)XCCL通信庫(kù)與FlowServe 自研推理引擎把它們重新拼成一個(gè)超高吞吐的LLM服務(wù)平臺(tái),即Tokens的“超高速流水線”。通過(guò)xDeepServe不斷調(diào)優(yōu),最終實(shí)現(xiàn)了從非超節(jié)點(diǎn)單卡吞吐600tokens/s至超節(jié)點(diǎn)單卡吞吐2400tokens/s的提升。
作為硬件加速計(jì)算的中間層,CANN包含多個(gè)算子庫(kù)和和XCCL這種高性能通信庫(kù)等組件,共同支撐AI模型的高效運(yùn)行。其中,XCCL作為專為超節(jié)點(diǎn)上的大語(yǔ)言模型(LLM)服務(wù)而量身打造的高性能通信庫(kù),能夠充分發(fā)揮CloudMatrix384擴(kuò)展后的UB互聯(lián)架構(gòu)(UB fabric)的全部潛力,為 Transformerless的全面分離奠定了帶寬與時(shí)延雙重硬底座。
而作為被重構(gòu)的“去中心”式分布式引擎,F(xiàn)lowServe把CloudMatrix384 切成完全自治的 DP 小組,每個(gè)小組自帶 Tokenizer、執(zhí)行器、RTC 緩存與網(wǎng)絡(luò)棧,完全自給自足,做到千卡并發(fā)也不“擁堵”。
目前,xDeepServe已實(shí)現(xiàn)MA分離,而下一步,將把Attention、MoE、Decode全部改成自由流動(dòng)的數(shù)據(jù)流,并把同樣的拼圖方法復(fù)制到多臺(tái)超節(jié)點(diǎn),讓推理吞吐像鋪軌一樣線性延伸,最終或?qū)⒁暰吞吐量的更大突破,讓每塊 NPU 都高效運(yùn)作,芯片永不排隊(duì),推理永不塞車。
聚焦主流大模型,不斷提升模型性能
目前,華為云MaaS服務(wù)已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平臺(tái)。
華為云積累了大量模型性能優(yōu)化、效果調(diào)優(yōu)的技術(shù)和能力,從而實(shí)現(xiàn)“源于開(kāi)源,高于開(kāi)源”,讓更多大模型可以在昇騰云上跑得更快更好。以文生圖大模型來(lái)說(shuō),在輕微損失畫質(zhì)的情況下,通過(guò)Int8量化、旋轉(zhuǎn)位置編碼融合算子等方式,在在華為云MaaS平臺(tái)實(shí)現(xiàn)了2倍于業(yè)界主流平臺(tái)的出圖速度,最大尺寸支持2K×2K。而在文生視頻大模型上,不僅通過(guò)量化方式來(lái)提速,還通過(guò)通算并行等方式,降低延遲與顯存占用,大幅提升視頻生成速度,相較于友商實(shí)現(xiàn)了3.5倍的性能提升。華為云Tokens服務(wù)在性能、模型適配、效果調(diào)優(yōu)方面的基礎(chǔ),也讓更多企業(yè)能夠快速開(kāi)發(fā)和構(gòu)建AI Agent。
而在應(yīng)用層,華為云已與超過(guò)100家伙伴攜手深入行業(yè)場(chǎng)景,共建豐富的Agent,在調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運(yùn)維等領(lǐng)域解決產(chǎn)業(yè)難題,讓企業(yè)更便捷地?fù)肀I創(chuàng)新,加速智能化。
如基于MaaS平臺(tái)推出的今日人才數(shù)智員工解決方案,集成了先進(jìn)的自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),能實(shí)現(xiàn)與用戶的智能交互和任務(wù)處理,顯著提升服務(wù)效率與客戶滿意度;而北京方寸無(wú)憂科技開(kāi)發(fā)的無(wú)憂智慧公文解決方案可以提升公文處理效能,實(shí)現(xiàn)政企辦公智能化轉(zhuǎn)型。
以Token為動(dòng)力的智能社會(huì)已經(jīng)到來(lái),而華為云將以系統(tǒng)級(jí)創(chuàng)新能力和全新的Tokens服務(wù)構(gòu)筑先進(jìn)算力,助力各行各業(yè)加速落地AI。
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
5G-A賦能機(jī)器人火炬接力:中國(guó)移動(dòng)以技術(shù)革新點(diǎn)亮全運(yùn)科技盛宴
2025年11月,第十五屆全國(guó)運(yùn)動(dòng)會(huì)將在粵港澳三地盛大啟幕。這場(chǎng)賽事不僅是體育健兒的競(jìng)技場(chǎng),更是前沿科技落地應(yīng)用的“試驗(yàn)田”。其中,11月2日的機(jī)器人火炬接力作為本次全運(yùn)會(huì)的核心創(chuàng)新亮點(diǎn)..[詳細(xì)]
輕薄機(jī)型出師未捷身先死,長(zhǎng)使業(yè)績(jī)淚滿襟
當(dāng)iPhone Air宣布上市當(dāng)天,隨著各路評(píng)測(cè)內(nèi)容解禁,一個(gè)顯眼的標(biāo)題也隨之出現(xiàn),那就是“注定停產(chǎn)”。輕薄機(jī)型的出現(xiàn)一方面讓人們看到廠商正在挖掘全新市場(chǎng)空間,另一方面也勾起了小尺寸機(jī)型..[詳細(xì)]
智能未來(lái):宇宙為你閃爍
未來(lái)十年,你家的電表可能再也不用換電池,自動(dòng)駕駛汽車能"看到"幾公里外的路況,甚至海洋深處的傳感器都能實(shí)時(shí)傳回?cái)?shù)據(jù)。這些不是科幻,而是剛剛在無(wú)錫物博會(huì)上發(fā)布的《2025全球..[詳細(xì)]
智能IP廣域網(wǎng)成為筑牢智算產(chǎn)業(yè)發(fā)展根基的關(guān)鍵一環(huán)
隨著國(guó)家加速推動(dòng)智算產(chǎn)業(yè)高質(zhì)量發(fā)展,網(wǎng)絡(luò)支撐能力已成為產(chǎn)業(yè)進(jìn)階的核心抓手,而作為關(guān)鍵基礎(chǔ)設(shè)施的智能IP廣域網(wǎng),正憑借其在算力調(diào)度、數(shù)據(jù)傳輸中的核心作用,成為筑牢智算產(chǎn)業(yè)發(fā)展根基的..[詳細(xì)]
大中華區(qū)市場(chǎng)失守 蘋果寄望AI驅(qū)動(dòng)未來(lái)增長(zhǎng)
蘋果公司公布的2025 財(cái)年第四季度財(cái)報(bào)呈現(xiàn)“冰火兩重天”態(tài)勢(shì):全球營(yíng)收1024.66億美元同比增長(zhǎng) 8%,凈利潤(rùn)274.66億美元同比激增86.4%,毛利率攀升至 47.18%。但作為第三大市場(chǎng)的大中華區(qū)卻成..[詳細(xì)]












